综述:本专栏将介绍以下内容(专栏:网络爬虫(java版))

版权声明:欢迎大家转载,转载请注明原作者和原地址链接,谢谢 https://blog.csdn.net/tiandixuanwuliang/article/details/80795433

目前爬虫技术非常火,使用Java、Python、PHP等语言都可以完成。虽说现在Python是开发爬虫的首选语言,但是Java在爬虫的开发方面也是有一定优势的:例如,HttpClient可以很好地模拟浏览器请求;Jsoup在解析爬取的Html文档时具有非常高效的特性;最重要的是Java很好地支持分布式开发,在很大程度上提高了爬虫的效率;Java可以十分方便的开发一款可视化界面,用来对爬虫进行监控。
本专栏将介绍以下内容:

1、Socket编程

(1)Socket是java网络编程的基础,本文使用Socket模拟发送Get和Post请求
(2)https://blog.csdn.net/tiandixuanwuliang/article/details/80796002

2、HttpURLConnection编程

(1)使用HttpURLConnection发送Get和Post请求
(2)

3、HttpClient编程

(1)HttpClient具有使用方便,高效率的特性,本文使用HttpClient发送Get和Post请求,后续的爬虫也是基于HttpClient开发的
(2)

4、Jsoup的使用

(1)Jsoup在解析Html文档时具有非常高效的特性,使用起来非常方便
(2)

5、虎嗅网爬虫—-基础版

(1)本文使用HttpClient+Jsoup开发简单版本爬虫
(2)

6、虎嗅网爬虫—-中级版

(1)在基础版本上,使用了多线程技术
(2)

7、虎嗅网爬虫—-高级版

(1)在中级版本上,增加了Redis缓存,使用了Redis提供的队列功能,并且把该爬虫变为一个分布式爬虫
(2)

8、京东爬虫

(1)爬取京东网站的数据
(2)

9、图片中的文字识别

(1)使用Tesseract技术识别图片中的文字
(2)

猜你喜欢

转载自blog.csdn.net/tiandixuanwuliang/article/details/80795433