爬虫是什么?爬虫的原理及应用

网络爬虫是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本。它是具有自动下载网页功能的计算机程序,按照URL的指向,在互联网上"爬行",由低到高、由浅入深,逐渐扩充至整个Web。

爬虫的原理

网络爬虫的类型

网络爬虫是作为一种计算机程序,具有自动下载网页功能,可以在互联网里采集数据,满足科学计算、数据处理以及网页开发等多个方面的用途。网络爬虫有着通用网络爬虫、聚焦网络爬虫、增量式网络爬虫以及深层网络爬虫等多种类型。

1.通用网络爬虫是根据URL指向爬行的过程中,采取深度优先、广度优先的策略。由URL扩充至Web,逐级、逐层访问网页链接,适用于某主题的广泛搜索,一般应用于搜索引擎。在大型Web服务商中,往往也需要应用通用网络爬虫。

2.聚焦网络爬虫是根据内容评价、链接结构评价,按照预没的主题,有选择性地行。在输入某一个查询词时,所查询、下载的网络页面均是以查询词作为主题。而在评价链接的过程中,需要应用到半结构化文档的Web页面,应用Page Rank算法。在聚焦网络爬虫中,引入增强学习、建立语境图,均是制定爬行策略的有效途径。

3.增量式网络爬虫:其在爬行过程中,网页发生增量式的更新变化。应用统一更新法,按照固定的频率进行网页访问,不会因网页的更新、变化而改变频率,应用个体更新法,遵循个体网页的频率,根据频率的改变情况,进行各页面的重新访问。或根据网页变化频率的差异性进行分类更新。

4.深层网络爬虫:通过传统搜索警和静态链接获取的页面多为表层页面,而为了获取深层页面,则需要利用深层网络爬虫。深层网络爬虫在爬行过程中,基于领域知识,进行表单填写,然后进行语义分析,获取关键词,提交关键词后,获取Web页面,或是基于网络结构分析,进行表单填写,利用DOM树形式,表示HTML网页。

网络爬虫的使用要求

网络爬虫技术的应用,无论是个人使用,还是科学研究和商业用途,必须遵循合法、合规的要求。爬虫爬取的数据中,个人隐私、受到版权保护的数据是禁止爬取的内容。对于加密的数据信息,在未获得权限的情况下,禁止爬虫爬取,不得随意转载,更不能获取商业利益。另外,爬虫在爬取网络数据的过程中,需要遵循Robot.txt协议,并明确网页中爬虫可爬取数据和禁止爬取数据。

网络爬虫技术的应用

1.数据采集系统的设计,需要建立在urlib库、Beautifu Sup库以及其他爬虫框架和第三方库之上,利用爬虫程序进行数据爬取,将结构化数据和非结构化数据分别存储于数据库和本地硬盘(指定格式)。为了保证爬取数据的可行性,应该对爬取进行规划,定义爬取范围,经过有效筛选后,精准地进行数据爬取。.

2. 在采集系统模型设计中,明确采集系统模型各个模块的功能。总调度模块作为程序的总入口,对整个采集系统模型起到调度作用,并对其他模块的运行进行控制。遵循设定好的作业流程,发布调度指令,依次完成各项作业。

3.数据采集系统实现,以Python为开发语言,基于数据库系统,进行数据采集。

猜你喜欢

转载自blog.csdn.net/WhiteCattle_DATA/article/details/132765096
今日推荐