网络机器人之爬虫

Spider 爬虫

引子

养眼吧,是不是经常苦于寻找不到这些资源?是不是经常因为网址的变更又找不到某些资源?

要想解决这个问题,简单嘛,就是把资源都保存到电脑上,但要是一口气保存两百多张,估计手都都抽筋。

这时候,就需要用到我们的爬虫了。

爬虫,即网络机器人,如果把互联网理解为一张巨大的蜘蛛网,那么爬虫就是在这张网上捕猎的蜘蛛,它会根据你给定的目标将资源保存下来,也就是持久化存储。

这个过程其实就类似于我们浏览器上网,只不过将这个繁琐的过程通过编写程序模拟的形式,让爬虫去互联网上抓取数据。

爬虫的价值

爬虫工程师的平均薪资为 ¥ 15510,刺激不,从就业的角度来说,爬虫工程师目前来说属于紧缺人才,深层次地掌握这门技术对于就业来说是非常有利的。

随着大数据时代的来临,爬虫技术的应用将越来广泛,抓取互联网上的数据为我所用,有了大量的数据,就如同有了一个数据银行一样,下一步就是如何将这些爬取的数据产品化、商业化。

总而言之,爬虫技术的应用将越来越广泛,在未来会拥有更好的发展空间。

爬虫合法性探究

先来看一篇文章:“一个程序员写了个爬虫程序,整个公司200多人被端了。”

爬虫作为一种计算机技术就决定了它的中立性,因此爬虫本身在法律上并不被禁止,但是利用爬虫技术获取数据这一行为是具有违法甚至是犯罪的风险的。

技术是一把双刃剑,既能造福全社会,也能让人锒铛入狱,因此,学习爬虫,一定要注意下列情况,有可能违法,严重的甚至构成犯罪:

  1. 爬虫程序规避网站经营者设置的反爬虫措施或者破解服务器防抓取措施,非法获取相关信息,情节严重的,有可能构成“非法获取计算机信息系统数据罪”。

  2. 爬虫程序干扰被访问的网站或系统正常运营,后果严重的,触犯刑法,构成“破坏计算机信息系统罪”

  3. 爬虫采集的信息属于公民个人信息的,有可能构成非法获取公民个人信息的违法行为,情节严重的,有可能构成“侵犯公民个人信息罪”。

举个例子:像谷歌这样的搜索引擎爬虫,每隔几天对全网的网页扫一遍,供大家查阅,各个被扫的网站大都很开心。这种就被定义为“善意爬虫”。

但是像抢票软件这样的爬虫,对着 12306 每秒钟恨不得撸几万次,铁总并不觉得很开心,这种就被定义为“恶意爬虫”。

可以说在我们身边的网络上已经密密麻麻爬满了各种网络爬虫,它们善恶不同,各怀心思。而越是每个人切身利益所在的地方,就越是爬满了爬虫。

所以爬虫是趋利的,它们永远会向有利益的地方爬行。

技术本身是无罪的,问题往往出在人无限的欲望上。

因此爬虫开发者的道德自持和企业经营者的良知才是避免触碰法律底线的根本所在。

爬虫的分类

通用爬虫:通用爬虫是搜索引擎爬虫的重要组成部分,主要是将互联网上的网页下载到本地,再对这些网页做相关处理(提取关键字、去掉广告),最后提供一个用户检索接口。

聚焦爬虫:聚焦爬虫是根据指定的需求抓取网络上指定的数据。

增量式爬虫:增量式爬虫是用来检测网站数据更新的情况,且可以将网站更新的数据进行爬取。

发布了726 篇原创文章 · 获赞 402 · 访问量 31万+

猜你喜欢

转载自blog.csdn.net/weixin_43336281/article/details/105242129