爬虫之路(1):认识爬虫

为什么爬虫

1.进行市场调研和商业分析。

房价分析、口碑分析、新闻内容分析。

2.作为机器学习、数据挖掘的原始数据。

机器学习模型的训练集、测试集。

3.爬取优质的资源:图片、文本、视频。

爬虫步骤

发送请求——解析页面——储存内容

此系列文章也按照这个流程展开。在发送请求中,会介绍HTTP的四种请求,并利用requests库来对不同请求情况的网站举例。

在解析页面中,会介绍解析页面的一些利器,比如beautifulsoup、正则。并举例介绍不同网页结构的解析方法。同时还介绍页面乱码时的处理。

后续的进阶中,会介绍防爬方法、去重策略、APP的数据如何爬取(比如抖音)、分布式爬虫的构建、
phantomjs和selenium的使用、scrapy爬虫框架的学习等。

爬虫前的心态

在学习爬虫前,一定要带着一种心态,就是

没有我爬不到的数据

带着这种信念,才能有勇气在爬虫之路上遇到的各种困难、各种反爬措施。斗得过反爬是一件有成就感的事情。

spider ,let’s go!

猜你喜欢

转载自blog.csdn.net/lk7688535/article/details/80909890