kettle+jsoup解析网页url链接 - 代码天地

kettle+jsoup解析网页url链接

其他 2020-01-25 11:32:28 阅读次数: 0

用途

本文介绍如何使用kettle，遍历web页面中的url链接，并输出到文本文档。

技术

kettle
javascript
jsoup-1.11.3.jar

转换文件步骤

在这里插入图片描述

生成记录

此步骤用于设置需要访问的web地址，以sina为例：
在这里插入图片描述

JavaScript代码

在这里插入图片描述

源码如下：

var Jsoup = org.jsoup.Jsoup;
var Document = org.jsoup.nodes.Document;
var Element = org.jsoup.nodes.Element;
var Elements = org.jsoup.select.Elements;
function parseLinks(){
	writeToLog("开始解析");
	var doc = Jsoup.connect(url).get();
	var els = doc.select("div ul li");
	writeToLog("行数："+els.size());
	for (var i=0;i<els.size();i++) {
		var r = els.get(i);
        //输出行处理
		var newRow = createRowCopy(getOutputRowMeta().size());
		var rowIndex = getInputRowMeta().size();
		// 获取文件链接地址
		var link=r.select("a").attr("href");
		var title=r.select("a").text();
		newRow[rowIndex++]=i + "\t"+title + "\t" + link;
		//输出行
		putRow(newRow);
	}
}
writeToLog("解析完成");
parseLinks();

过滤记录

过滤输出的内容，需要包含http协议：
在这里插入图片描述

文本文件输出

将结果输出到脚本的当前目录：
在这里插入图片描述
输出字段为：newRow

写日志

此步骤保留为空，则默认输出全部内容：
在这里插入图片描述

输出结果

在这里插入图片描述

huryer

发布了230 篇原创文章 · 获赞 29 · 访问量 23万+

私信关注

猜你喜欢

转载自blog.csdn.net/huryer/article/details/104078161

kettle+jsoup解析网页url链接

java 使用Jsoup解析URL网页信息

jsoup + json 解析网页

JSoup获取网页中的链接

httpClient获取Jsoup解析网页

Jsoup网页解析体验（下）

Jsoup网页解析体验（上）

jsoup网页解析器

Jsoup解析网页html文档

Jsoup获取url所有链接

（java）Jsoup爬虫学习--获取网页所有的图片，链接和其他信息，并检查url和文本信息

Java爬虫Jsoup -- 解析URL、String、File

Jsoup简单爬虫实战演练——解析URL

[Jsoup] 使用HtmlUnit + Jsoup解析js动态生成的网页

Jsoup实现解析网页，搜索职位信息

httpClient及jsoup抓取解析网页数据

Jsoup后台解析html、jsp网页

使用HtmlUnit + Jsoup 解析动态网页

java网页解析jsoup学习笔记

Java 结合Jsoup 和 htmlunit（WebClient）对网页URL对应的网页进行爬取解析获取自己所需要的数据信息

JSoup利用获得的cookies访问该网页中的其它链接

解析网页利器组合（正则、jsoup、beanshell、dozer）资源

基于jsoup的网页爬虫

使用jsoup分析网页

Jsoup获取网页标题

Jsoup详解，Jsoup.connect(“url”).get()

django网页开发：2. 模板、url、超链接

【jsoup+jdic】java获取URL请求最终的html源码(js解析过的)

java使用Jsoup连接网站超时的解决方法链接的时候设定超时时间即可。 doc = Jsoup.connect(url).timeout(5000).get();

利用Jsoup获取网页源码，并解析出图片内容下载到本地

今日推荐

Linus “吃狗粮”最积极！

开源日报 | Winamp播放器即将开源；生成式AI之战升级第二轮；Linus“吃狗粮”最积极；AI进入泡沫前期；吴泳铭为阿里云带来了什么？

NetBSD 禁止提交由 AI 生成的代码

Apache Doris 2.0.10 版本正式发布！

开源日报 | 大模型开战；大模型独角兽被曝卖身；周鸿祎建议谷歌开源所有产品；最大开源AI社区提供1000万美元共享GPU

开源日报 | Chrome内置Gemini的意义不在于Gemini；中国AI追随之路的五大误区；ECharts创始人“下海”养鱼；谷歌I/O开发者大会什么都有，只是没有惊喜

微软回应中国区AI团队“打包赴美”传闻

周排行

LogN级别的区间查询算法(线段树), 你学会了吗

数论概论(英文版.第4版)

idea 更新后和新的直接安装前，都需要配置 idea64.exe.vmoptions 后再使用

CANOpen系列教程04_CAN总线波特率、位时序、帧类型及格式说明

Java序列化基础

java排序算法整理

异常：org.apache.ibatis.reflection.ReflectionException

（算法练习）——二路归并排序

go 闭包函数

好程序员web前端技术分享媒体查询

每日归档

更多

2024-05-21(8)

2024-05-20(36)

2024-05-19(0)

2024-05-18(4)

2024-05-17(34)

2024-05-16(6)

2024-05-15(24)

2024-05-14(0)

2024-05-13(18)

2024-05-12(0)