Scrapy命令详解

Scrapy的全局命令:

1.fetch    用来显示爬虫爬取的过程

通过 scrapy fetch 网址 的形式显示出爬取对应网址的过程

--spider=SPIDER         use this spider                          ----------控制使用哪个爬虫
--headers               print response HTTP headers instead of body             -------控制显示爬取网页的头信息
--no-redirect           do not handle HTTP 3xx status codes and print response
as-is

Global Options
--------------
--logfile=FILE          log file. if omitted stderr will be used     ---------指定存储日志信息的文件
--loglevel=LEVEL, -L LEVEL                              ---------------控制日志等级
log level (default: DEBUG)
--nolog                 disable logging completely                             ----------不显示
--profile=FILE          write python cProfile stats to FILE
--pidfile=FILE          write process ID to FILE
--set=NAME=VALUE, -s NAME=VALUE
set/override setting (may be repeated)
--pdb                   enable pdb on failure

2.runspider命令           -----------可以实现不依托Scrapy的爬虫项目,直接运行一个爬虫文件

3.settings命令                -----------查看Scrapy对应的配置信息
例如:scrapy settings --get BOT_NAME来查看配置信息中BOT_NAME对应的值

4.shell命令         ------------启动Scrapy的交互终端,可以实现在不启动Scrapy爬虫的情况下,对网站
                                                  响应进行调试
例如:scrapy shell http://www.baidu.com --nolog

5.startproject命令            -----------用于创建项目

6.version命令            --------------用于显示Scrapy的版本相关信息
 
7.view命令                           ----------实现下载某个网页并使用浏览器查看


Scrapy的项目命令:bench、check、crawl、edit、genspider、list、parse

1.bench命令         ---------用来测试本地硬件的性能

2.genspider命令    ----------用来创建scrapy爬虫文件,是一种快速创建爬虫文件的方式

        使用该命令可以基于现有的爬虫模板直接生成一个新的爬虫文件,当前可以使用的爬虫模板有

basic  crawl  csvfeed  xmlfeed等,可以基于任意一个爬虫模板来生成爬虫文件

        例如:scrapy genspider -t basic fengkai iqianyue.com

     (scrapy genspider -t basic 模板 新爬虫名称 爬取域名)

scrapy genspider -d csvfeed可以查看对应模板中的具体内容

3.check命令                   -------用来检查是否有错误
例如:scrapy check fengkai

4.crawl命令         ----------启动爬虫
如:scrapy crawl fengkai --loglevel=INFO

5.list命令             ----------列出当前可使用的爬虫文件
例如:scrapy list


6.edit命令            ----------直接对某个爬虫文件进行编辑

        例如:scrapy edit fengkai


7.parse命令         ---------通过parse命令,可以实现获取指定的URL网址,并使用爬虫文件进行处理和分析

        如:scrapy parse http://www.baidu.com --spider=fengkai --nolog

此时,我们指定了爬虫文件fengkai进行处理


猜你喜欢

转载自blog.csdn.net/FK103/article/details/80049109