Java超简单的网络爬虫技术，老司机带你爬取一大波妹子图！附源码

其他 2019-04-27 03:03:05 阅读次数: 0

一、网络爬虫的基本知识

网络爬虫通过遍历互联网络，把网络中的相关网页全部抓取过来，这体现了爬的概念。爬虫如何遍历网络呢，互联网可以看做是一张大图，每个页面看做其中的一个节点，页面的连接看做是有向边。图的遍历方式分为宽度遍历和深度遍历，但是深度遍历可能会在深度上过深的遍历或者陷入黑洞。所以，大多数爬虫不采用这种形式。另一方面，爬虫在按照宽度优先遍历的方式时候，会给待遍历的网页赋予一定优先级，这种叫做带偏好的遍历。

实际的爬虫是从一系列的种子链接开始。种子链接是起始节点，种子页面的超链接指向的页面是子节点（中间节点），对于非html文档，如excel等，不能从中提取超链接，看做图的终端节点。整个遍历过程中维护一张visited表，记录哪些节点（链接）已经处理过了，跳过不作处理。

使用宽度优先搜索策略，主要原因有：

a、重要的网页一般离种子比较近，例如我们打开的新闻网站时候，往往是最热门的新闻，随着深入冲浪，网页的重要性越来越低。
b、万维网实际深度最多达17层，但到达某个网页总存在一条很短路径，而宽度优先遍历可以最快的速度找到这个网页
c、宽度优先有利于多爬虫合作抓取。

二、网络爬虫的简单实现

1、定义已访问队列，待访问队列和爬取得URL的哈希表，包括出队列，入队列，判断队列是否空等操作

2、定义DownLoadFile类，根据得到的url，爬取网页内容，下载到本地保存。此处需要引用commons-httpclient.jar，commons-codec.jar，commons-logging.jar。

3、定义HtmlParserTool类，用来获得网页中的超链接（包括a标签，frame中的src等等），即为了得到子节点的URL。需要引入htmlparser.jar

4、编写测试类MyCrawler，用来测试爬取效果

声明：本文内容来源于网络，如有侵权请联系删除

猜你喜欢

转载自blog.csdn.net/AETYO/article/details/89553641

Java超简单的网络爬虫技术，老司机带你爬取一大波妹子图！附源码

老司机带你用python来爬取妹子图

小白福利！跟着我的脚步！老司机带你爬取整站妹子图！反爬不存在

ZZNUOJ_用Java编写程序实现1924：一大波素数来袭(附源码)

老司机教你用python来爬取妹子图，带好卫生纸

Q妹带你赚外快：一大波优质福利问题袭来

一大波涨姿势的小众网站，带你解锁新大陆！

Q妹带你赚外快：一大波Python悬赏问答来袭，你敢接招吗？

一大波好看的妹子来袭-宅男福利

Python老司机手把手带你写爬虫，整站下载妹子图，一次爽个够！

React 16.6 发布，一大波新功带你看未来的 React 开发方式

[转帖]一大波机械动图来袭，不懂机械也能看明白，附原理解释！

一大波视频分享

一大波命令（1）

一大波命令（2）

一大波字符来袭!

[转帖]一大波你可能不知道的 Linux 网络工具

一大波爬虫即将入境 [爬虫专题(15)]

老司机带你用Python抓取divnil动漫妹子图

简单爬取妹子图

没有死！阿里公开Weex技术架构，还开源了一大波组件

一大波 Facebook Libra 技术文章来袭

React16.6发布，一大波新功带你看未来的React开发方式

区块链人才急聘：一大波高薪职位等你来

阿里云创新产品团队招聘！一大波岗位呼唤你

推荐一大波让你直呼哇塞的Canvas库

一大波Java来袭（三）Java经常使用类

听说最近爬取妹子图很火？？如何用python爬取妹子网图片？这段代码你必须会！超简单~

招人啦！安卓/Java/数据库/测试等一大波岗位袭来

一大波免费简历模板来袭……

今日推荐

NetBSD 禁止提交由 AI 生成的代码

Apache Doris 2.0.10 版本正式发布！

开源日报 | 大模型开战；大模型独角兽被曝卖身；周鸿祎建议谷歌开源所有产品；最大开源AI社区提供1000万美元共享GPU

开源日报 | Chrome内置Gemini的意义不在于Gemini；中国AI追随之路的五大误区；ECharts创始人“下海”养鱼；谷歌I/O开发者大会什么都有，只是没有惊喜

微软回应中国区AI团队“打包赴美”传闻

基于大语言模型的开源知识库问答系统 MaxKB GitHub Star 数量突破 5,000 个！

周排行

static方法和非static方法的区别（java）

如何查找计算机专业paper

java.lang.ClassFormatError: Incompatible magic value 0 in class file com/sitecha

跳跃游戏II

stm32_之【建立工程】

TeaWeb v0.0.9 发布，统计底层优化、主机监控功能改进

事件分发 -----控制字体大小

JavaScript DOM练习（动态表格添加） December 25，2019

JSF Scope & CDI

实现从零搭建一个登录注册页面（附源代码）

每日归档

更多

2024-05-19(0)

2024-05-18(4)

2024-05-17(34)

2024-05-16(6)

2024-05-15(24)

2024-05-14(0)

2024-05-13(18)

2024-05-12(0)

2024-05-11(38)

2024-05-10(38)