spider----scrapy框架

版权声明:个人原创,所属@jerry 本人 https://blog.csdn.net/qq_42938842/article/details/83757496

scrapy初认识
    scrapy是什么?是一个非常强大的python爬虫框架,底层语言使用python实现。既然是框架,肯定已经实现了很多其他的功能,用户只需要将自己的精力放到自己的业务逻辑中即可。多进程、多线程、队列、去重
    安装:pip install scrapy
    scrapy的工作原理
        引擎(engine)、爬虫(spiders)、调度器(scheduler)、下载器(downloader)、管道(pipeline)

scrapy图解

    这里用到生成器的使用,不懂得可以先去看看

(1)创建工程
        scrapy startproject xxx

        生成爬虫文件
         cd firstbloodpro
         scrapy genspider 爬虫名字 网站域名

认识response对象
		运行scrapy
		cd firstblood/firstblood/spiders
		scrapy crawl 爬虫名字
		response.text    字符串格式内容
		response.body    字节格式内容
		response.url     对应请求url
		response.headers 响应头
		response.status  状态码

导出为指定格式文件

scrapy crawl qiubai -o qiubai.json
scrapy crawl qiubai -o qiubai.xml
scrapy crawl qiubai -o qiubai.csv

scrapy shell
    是什么?scrapy的一个调试工具,用来调试你的css、xpath、或者链接提取器,在scrapy shell中是正确的,到代码中肯定没问题
    依赖 ipython  是一个更加智能的python交互环境
        pip install ipython
    一般情况下,在任何终端页码直接输入 scrapy shell url 就可以直接进入调试页面,如果进不去,新建一个工程,做一些简单的配置,然后再工程终端下再执行  scrapy shell <url>

在配置文件setting中
    LOG_LEVEL = 'ERROR'
    和你的print没有,只要你print就会打印出来
    LOG_FILE = 'log.txt'

发送post请求
    如何发送
    启动就发送
        重写一个方法  start_requests(self)

猜你喜欢

转载自blog.csdn.net/qq_42938842/article/details/83757496