用Python写爬虫(1)

版权声明:本文为博主原创文章,未经博主允许不得转载。 https://blog.csdn.net/wangtianhuai/article/details/79163133

一、网络爬虫与搜索引擎的关系

爬虫相当于眼睛和耳朵,是收集数据的。

引擎相当于大脑,是理解和处理数据的。

搜索引擎大致可分为四个子系统:下载系统、分析系统、索引系统、查询系统。而爬虫只是下载系统

  

上图是搜索引擎的一个简单抽象模型。

从中可以看出爬虫是搜索引擎的一部分,用于搜集信息(下载网页内容),搜集来的信息形成网页的备份,需要搜索引擎的其他部分经过一系列的分析整理后才能使用。


上图是爬虫的基本构架。

一般大型的商业化搜索引擎使用的爬虫为“通用网络爬虫”。

这种爬虫需要爬取的是整个互联网的网页资源,所以对其性能的要求极高。需要投入较大的人力物力来优化爬虫的爬取算法。

现在是“大数据时代”,我们需要的资源存在于互联网海量的数据之中,有时候我们从搜索引擎中搜索到的数据不能很好的为我们所用。那我们怎样才能从数据的海洋中提取出真正我们需要的宝藏呢?

我们需要自己的得手利器,打造一款适合自己需求的个性化爬虫程序,这就是“聚焦网络爬虫”。

聚焦网络爬虫(简称聚焦爬虫)也叫主题网络爬虫,可以按照对应的主题有目的地爬取,节约了大量的服务器和宽带资源,具有很强的实用性。

聚焦爬虫的工作流程:

1.给爬虫一个初始URL;

2.将初始URL传递到URL队列;

3.页面爬行模块从URL队列中读取URL列表;

4.页面爬行模块根据URL进行页面爬取;

5.将爬取的内容储存在页面数据库中;

6.将爬取到的新URL使用链接过滤模块;

7.剩下的URL用链接评价模块或内容评价模块 优先级排序;

8.新的URL地址传递到URL队列;

9.在页面数据库中使用页面分析模块;


我们可以使用网络数据采集程序来练习,例如metaseeker程序。

通过使用这个程序,可以加深我们对于爬虫工作原理的理解。


猜你喜欢

转载自blog.csdn.net/wangtianhuai/article/details/79163133