scrapy初认识
scrapy是什么?是一个非常强大的python爬虫框架,底层语言使用python实现。既然是框架,肯定已经实现了很多其他的功能,用户只需要将自己的精力放到自己的业务逻辑中即可。多进程、多线程、队列、去重
安装:pip install scrapy
scrapy的工作原理
引擎(engine)、爬虫(spiders)、调度器(scheduler)、下载器(downloader)、管道(pipeline)
这里用到生成器的使用,不懂得可以先去看看
(1)创建工程
scrapy startproject xxx
生成爬虫文件
cd firstbloodpro
scrapy genspider 爬虫名字 网站域名
认识response对象
运行scrapy
cd firstblood/firstblood/spiders
scrapy crawl 爬虫名字
response.text 字符串格式内容
response.body 字节格式内容
response.url 对应请求url
response.headers 响应头
response.status 状态码
导出为指定格式文件
scrapy crawl qiubai -o qiubai.json
scrapy crawl qiubai -o qiubai.xml
scrapy crawl qiubai -o qiubai.csv
scrapy shell
是什么?scrapy的一个调试工具,用来调试你的css、xpath、或者链接提取器,在scrapy shell中是正确的,到代码中肯定没问题
依赖 ipython 是一个更加智能的python交互环境
pip install ipython
一般情况下,在任何终端页码直接输入 scrapy shell url 就可以直接进入调试页面,如果进不去,新建一个工程,做一些简单的配置,然后再工程终端下再执行 scrapy shell <url>
在配置文件setting中
LOG_LEVEL = 'ERROR'
和你的print没有,只要你print就会打印出来
LOG_FILE = 'log.txt'
发送post请求
如何发送
启动就发送
重写一个方法 start_requests(self)