python之旅-日记4(记录零基础自己的每天学习)

番外篇 (爬虫scrapy框架) 2018/9/19

scrapy
1.>scrapy startproject aaa 创建一个爬虫项目
2.>items.py 修改容器
3.>pipelines.py 修改管道
4.>settings.py 设置 开启pipelines 禁止cookies
下载延迟 下载中间件(ip池 头文件)
robots.txt文件限制
5.>genspider命令创建spider爬虫文件 aaa.py
XMLFeed(iterator选择那个迭代器,itertag开始迭代的节点设置)
CSVFeed(header提取字段的行信息的列表,delimiter主要存放字段之间的间隔符)
crawl (rules设置自动爬行规则,LinkExtractor链接提取器)
basic
6>调试与运行 scrapy crawl
7.>写入数据库

多线程爬虫

猜你喜欢

转载自blog.csdn.net/duguichao/article/details/82772227