精通Python爬虫框架Scrapy PDF下载

Scrapy是一个开源的Python爬虫框架,可以用来轻松提取从页面数据。Scrapy带有丰富的特性,可通过简单的编码或配置来访问,从而可以节省开发人员数周的开发时间,并高效地提取所需数据。Scrapy有一个高度活跃且迅速增长的社区,而且已经成为黑客、创业者和Web爬取专家的首*框架。 
本书讲解了Scrapy的基础知识,讨论了如何从任意源提取数据,如何清理数据,以及如何使用Python和第三方API进行处理,以满足自身需求。本书还讲解了如何将爬取的数据高效地馈入数据库、搜索引擎和流数据处理系统(比如Apache Spark)。在学习完本书后,你将对数据爬取胸有成竹,并将数据应用在自己的应用程序中。 
本书内容: 
使用HTML和Xpath提取所需的数据; 
使用Python编写Scrapy爬虫,并在网络上进行爬取操作; 
将数据推送到任意数据库、搜搜引擎或分析系统的方法; 
配置爬虫,使其下载文件和图形,以及使用代理; 
创建用来限流数据的高效管道; 
使用Twitsted实践驱动的API并发处理数百个Item; 
让爬虫更快速,让内存使用率更高,以及对Scrapy性能进行调优的技巧; 
使用Scrapyd和Scrapinghub执行大规模分布式爬取操作的方法。

本书电子版及其他资料免费下载:添加微信:cnsk27(一定要备注:"资料")

猜你喜欢

转载自blog.csdn.net/yuanlong1811/article/details/83510442