jsoup简单封装 - 代码天地

jsoup简单封装

编程语言 2018-05-12 00:41:56 阅读次数: 0

1.jsoup简介

jsoup 是一款Java 的HTML解析器。

2.特点

它提供了一套非常省力的API，可通过类似于jQuery的操作方法来取出和操作数据。

区别：

1）:eq(n)

jsoup：元素在父元素中的index

selector：元素在结果集中的index

3.封装的目的

把数据提取和业务逻辑分离开来，使代码更清晰，易懂，便于维护

4.组件图

Extractor：对jsoup的简单封装，依赖与jsoup和Apache Commons库

Spring：实现了与Spring的集成

Digester+XSD：实现了核心类HTMLExtractor的XML配置

5.类图

HTMLExtractor：核心类，解析HTML页面的入口

BeanExtractor：将HTML元素解析为一简单的JAVABEAN,暂不支持有参构造方法

ListExtractor：将HTML元素解析为一List对象

PropertyExtractor：将HTML元素解析为一JAVA基本类型对象或者Date对象

6.简单的处理流程

PageProcessor：用于处理某一类型的页面，可能会调用其它的PageProcessor

HTMLExtractor：用于解析该类型页面，提取出相关数据

Convertor：将HTMLExtractor提取出来的数据转化了内部可用的JAVABean，其中可能会调用Service

Service：对JAVABean进行处理的业务逻辑

7.问题

开始以为封装的HTMLExtractor能够实现从页面到JAVABean的直接转化，在实践中发现目标JAVABean的属性在HTML页面中经常和其它的属性或者其它提示性文字混合在一起呈现，无法直接转化，并且某些属性可能会依赖于Service在已有数据中进行获取。

8.结论

对jsoup的简单封装实现虽然使代码更清晰，易懂，但是由于属性进行了两次set，第一次在HTMLExtractor中，第二次在Convertor中，降低了抓取效率，但是个人觉得是值得的。

9.源代码

附件中的jsoup.rar

猜你喜欢

转载自siyuan-zhu.iteye.com/blog/2136309

jsoup简单封装

开源软件 jsoup2bean - jsoup简单封装续

JSoup的简单使用

jsoup 简单应用

jsoup解析html的简单demo

jsoup解析html简单总结

java爬虫Jsoup简单学习

jsoup实现简单java爬虫

Java爬虫-Jsoup的简单使用

Jsoup爬取简单信息

解析HTML工具Jsoup的封装类

【jsoup爬虫1】用jsoup来实现简单的java爬虫

jsoup

爬虫学习-------Jsoup简单方法测试

Java使用Jsoup简单解析页面

使用JSoup实现简单的爬虫技术

Jsoup中文api内容简单整理

Jsoup简单爬虫实战演练——解析文件

Jsoup简单爬虫实战演练——解析URL

jsoup爬虫工具超简单使用(记录)

【jsoup爬虫2】用jsoup来实现简单的java爬虫-图片篇

【jsoup爬虫3】用jsoup来实现简单的java爬虫-视频篇

一个简单的Jsoup抓取页面信息的例子

使用jsoup和httpclient编写的简单爬虫工具

采用HttpClient和Jsoup实现简单的网页爬虫

Jsoup简单例子——爬取网页内的邮箱

获取汇率模板自动生成注释的jsoup简单应用

Java教程之使用Jsoup实现简单的爬虫技术

Java程序中使用 Jsoup 爬虫( 简单示例 )

【JAVA爬虫】利用JSOUP简单爬取猫眼电影榜单

今日推荐

美国拟限制 AI 大模型出口中国和俄罗斯

苹果将与 OpenAI 达成协议，将 ChatGPT 应用于 iPhone

openKylin 社区生态委员会第六次会议圆满召开

阿里云正式发布通义千问 2.5

Python 3.13 发布首个 Beta：实验性自由线程模式和 JIT、改进交互式解释器

Stack Overflow 拿我的代码去训练 AI 大模型，还封了我的账号

Pop!_OS 的 COSMIC 桌面完成 App Store 上架工作

报告：Django 仍然是 74% 开发者的首选

《2024 年一季度互联网投融资运行情况》研究报告

15 年前上了“FFmpeg 耻辱柱”，今天他还得谢谢咱——腾讯QQPlayer一雪前耻？

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

GCC 14.1 发布

周排行

NEFU 117 素数个数的位数

Closest Common Ancestors (Lca,tarjan)

ELK部署

【转载】Hive笔记整理（三）

SQL语句（一）基本表的定义

关于Java web开发中的MySQL的事务语句

MFC创建自定义窗体

如何用一句话激怒程序员？

《逆袭大学》文摘——9.4 基础和应用的平衡中找到大学的节奏

【spring源码分析】@Value注解原理

每日归档

更多

2024-05-11(38)

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)

2024-05-03(19)

2024-05-02(0)