Python:带你认识爬虫

1、什么是爬虫?

        网络爬虫(又称为网页蜘蛛、网络机器人),是一种按照一定规则,自动地抓取万维网信息的程序或者脚本。

2、一般爬虫的结构

网络爬虫的基本工作流程如下∶
1、首先选取一部分 URL。

2、将这些 URL放入待抓取URL 队列。


3、从待抓取 URL 队列中读取待抓取队列的URL,解析 DNS,并且得到主机的 IP,并将URL对应的网页下载下来,存储进已下载网页库中。此外,将这些URL 放进已抓取URL 队列。


4、分析已抓取 URL 队列中的URL,从已下载的网页数据中分析出其他 URL,并和已抓取的URL 进行比较去重,最后将去重过的URL 放入待抓取URL队列,从而进入下一个循环。


这便是一个基本的通用网络爬虫框架及其工作流程。

3、爬虫的分类 

网络爬虫按照系统结构和实现技术,大致可以分为:
      通用网络爬虫、聚焦网络爬虫、增量式网络爬虫、深层次网络爬虫。
聚焦网络爬虫;
        聚焦爬虫是一种自动下载网页的程序,它根据既定的抓取目标,有选择地访问万维网上的网页与相关的链接,获取所需要的信息。
与通用爬虫不同,聚焦爬虫并不追求大的覆盖,而是将目标定为抓取某一特定主题内容相关的网页,为面向主题的用户查询准备数据资源。
增量式网络爬虫:
        增量式网络爬虫是指对已下载网页采取增量式更新和只爬行新产生的或者已经发生变化网页的爬虫,它能够在一定程度上保证
所爬行的页面尽可能是新的页面。和周期性爬行和刷新页面的网络爬虫相比,增量式爬虫只会在需要的时候爬行新产生或发生更新的页面,并不重新下载
没有发生变化的页面,可有效减少数据下载量,及时更新已爬行的网页,减小时间和空间上的耗费,但是增加了爬行的算法复杂度和实现难度。
深层网络爬虫:
        Web页面按照存在方式分为表层网页和深层网页。表层网页是指传统搜索引擎可以索引的页面,以超链接可以到达的静态网页为主构成的
Web页面。深层次网络是指那些大部分内容不能通过静态链接获取的、隐藏在搜索表单后的,只有用户提交一些关键词才能获得的Web页面。

猜你喜欢

转载自blog.csdn.net/qq_45801904/article/details/123720347