Jsoup网页内容抓取分析(1) - 代码天地

Jsoup网页内容抓取分析(1)

企业开发 2018-05-14 01:49:24 阅读次数: 0

在Java 程序在解析HTML 文档时，大家应该晓得htmlparser 这个开源项目，我也是使用过，不过这个程序到了2006年就没有更新了。由于我的基础较差，对于扩展自定义的标签还是不太懂，还是有超时问题困扰，偶然的机会中发现有jsoup，而且更新到了1.72版，使用起来还是很容易上手的。下面写些使用心得：

jsoup is a Java library for working with real-world HTML. It provides a very convenient API for extracting and manipulating data, using the best of DOM, CSS, and jquery-like methods.

jsuop是一款java的html解析器，提供一套非常省力的API，通过dom模型css和类似于jquery的方式来获取和操作数据。

功能：1.解析一个Html文档，2.解析一个body片段

String html = "<html><head><title>First parse</title></head>"
  + "<body><p>Parsed HTML into a doc.</p></body></html>";
Document doc = Jsoup.parse(html);//分析文档，使用doc.toString()可以转为文本
Element body=doc.body();//获取body片段，使用body.toString()可以转为文本

获取方式：1.从本地文件加载 2.根据url地址获取

/**使用静态 Jsoup.parse(File in, String charsetName, String baseUri) 方法
 *其中baseUri参数用于解决文件中URLs是相对路径的问题。
 *如果不需要可以传入一个空的字符串。
 */
File input = new File("/tmp/input.html");
Document doc = Jsoup.parse(input, "UTF-8", "http://example.com/");

/**
 *根据url直接获取内容，可以加入超时，get方法不行，就用post方法
 *我在实际应用中，出现404,405,504等错误信息
 *将get改为post就可以，或者反过来改
 *如果等以后弄明白了，再来解释清楚
 */
Document doc1 = Jsoup.connect("http://www.hao123.com/").get();
String title = doc1.title(); //获取网页的标题
String content=doc1.toString();//将网页转为文本

Document doc2 = Jsoup.connect("http://www.hao123.com")
  .data("query", "Java")//请求参数
  .userAgent("Mozilla")//设置urer-agent
  .cookie("auth", "token")//设置cookie
  .timeout(50000)//设置连接超时
  .post();//或者改为get

猜你喜欢

转载自cjp1989.iteye.com/blog/1807605

Jsoup网页内容抓取分析(1)

jsoup网页内容抓取分析(2)

使用Jsoup登录网站抓取网页内容

jsoup抓取网页报错UnsupportedMimeTypeException

使用jsoup分析网页

网页爬虫WebCrawler（1）-Http网页内容抓取

网页内容获取工具 jsoup

【整理】python爬虫（1）抓取网页，分析网页内容，模拟登录网站的逻辑、流程和注意事项

httpClient及jsoup抓取解析网页数据

jsoup技术抓取网页数据大全

java使用jsoup抓取网页图片

java 利用jsoup进行网页图片抓取

抓取网页内容

Python抓取网页内容

网页动态内容抓取

Jsoup获取网页全部原始内容

利用htmlparser抓取网页内容

使用requests抓取网页内容

使用爬虫抓取网页内容

[转]JSOUP 抓取HTTPS/HTTP网页，校验问题

jsoup使用之抓取CSDN个人博客内容

网络爬虫1之HttpClient抓取数据、Jsoup解析数据

用nodejs抓取并存储网页内容

使用socket实现网页内容抓取

C#抓取网页HTML内容

shell实践--简单抓取网页内容

Python网页内容Selenium抓取+Excel输出

爬取网页内容的利器--Jsoup用法简介

Jsoup+HttpClient爬取网页指定内容

jsoup抓取起点小说

今日推荐

openKylin 社区生态委员会第六次会议圆满召开

阿里云正式发布通义千问 2.5

Python 3.13 发布首个 Beta：实验性自由线程模式和 JIT、改进交互式解释器

Stack Overflow 拿我的代码去训练 AI 大模型，还封了我的账号

Pop!_OS 的 COSMIC 桌面完成 App Store 上架工作

报告：Django 仍然是 74% 开发者的首选

《2024 年一季度互联网投融资运行情况》研究报告

15 年前上了“FFmpeg 耻辱柱”，今天他还得谢谢咱——腾讯QQPlayer一雪前耻？

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

GCC 14.1 发布

面壁智能发布 Eurux-8x22B 开源大模型 —— 堪称「理科状元」

开源日报 | 谷歌扶持鸿蒙上位；开源Rabbit R1；Docker加持的安卓手机；微软的焦虑和野心；海尔电器把开放平台关了

周排行

计算机组成与设计（七）—— 除法器

Integer Approximation(分治+枚举)

大话数据库索引

windows10系统JDK的配置及下载地址

mysql实现秒值转换中原六仔平台搭建

Codeforces Round #556 (Div. 1)

百练1064 网线主管

Codeforces 995F Cowmpany Cowmpensation

子集生成之增量构造法，位向量法，二进制法

ERROR: cmd.exe failed with args /c "/APK\gradle\rungradle.bat...

每日归档

更多

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)

2024-05-03(19)

2024-05-02(0)

2024-05-01(4)