为什么爬虫
1.进行市场调研和商业分析。
房价分析、口碑分析、新闻内容分析。
2.作为机器学习、数据挖掘的原始数据。
机器学习模型的训练集、测试集。
3.爬取优质的资源:图片、文本、视频。
爬虫步骤
发送请求——解析页面——储存内容
此系列文章也按照这个流程展开。在发送请求中,会介绍HTTP的四种请求,并利用requests库来对不同请求情况的网站举例。
在解析页面中,会介绍解析页面的一些利器,比如beautifulsoup、正则。并举例介绍不同网页结构的解析方法。同时还介绍页面乱码时的处理。
后续的进阶中,会介绍防爬方法、去重策略、APP的数据如何爬取(比如抖音)、分布式爬虫的构建、
phantomjs和selenium的使用、scrapy爬虫框架的学习等。
爬虫前的心态
在学习爬虫前,一定要带着一种心态,就是
没有我爬不到的数据
带着这种信念,才能有勇气在爬虫之路上遇到的各种困难、各种反爬措施。斗得过反爬是一件有成就感的事情。