Python爬虫笔记（八）——Scrapy官方文档阅读——Scrapy常用命令集锦

#在project_dir目录下创建名为project_name的爬虫项目，如果不指定project_dir，
默认目录名为项目名称
scrapy startproject <project_name> [project_dir]

#获得可用命令集锦
scrapy -h

#查看某条命令如何使用
scrapy <command> -h

#使用模板创建一个爬虫（注意是爬虫，即包含有爬虫代码的文件，不是爬虫项目，一个爬虫项目包含有许多文件，其中就包括包含爬虫代码的文件）
scrapy genspider [-t template] <name> <domain>

#template，使用的模板，可选值：basic、crawl、csvfeed、xmlfeed
#name，爬虫文件的名称
#domain，用于设置爬虫的allowed_domains和start_urls属性
scrapy genspider [-t template] <name> <domain>

#启动名为spider的爬虫
scrapy crawl <spider>
需要在项目目录中

#检查代码是否有错，-l：列出爬虫的所有方法
scrapy check [-l] <spider>
需要在项目目录中

#列出本项目的所有可用爬虫
scrapy list
需要在项目目录中使用

#编辑名为<spider>的爬虫的代码
scrapy edit <spider>
需要在项目目录中使用

#返回网页源代码，具有一些可选参数
scrapy fetch <url>
#--headers：打印http响应的头部信息，不答应网页源代码
#--no-redirect：不响应重定向
#--spider=SPIDER：使用特定的爬虫爬取
scrapy fetch <url>

#打开浏览器查看网页，值得注意的是，我们看到的将是爬虫看到的界面，意味着ajax、js不会被执行，对于分析网页是否是动态页面十分有效，
具有一些可选参数
scrapy view <url>
#--spider=SPIDER：使用特定爬虫爬取
#--no-redirect：不允许重定向
scrapy view <url>

#开启shell平台，可用于测试，支持一些参数，这个命令比较特殊，以后在补充
scrapy shell [url]

#获得url的响应，根据-callback指定函数（如果没有指定，默认为parse）进行解析
scrapy parse <url> [options]
必须在项目目录中
支持的选项：
--spider=SPIDER：指定特定的爬虫
--a NAME=VALUE：指定爬虫构造函数的参数
--callback（-c）：指定解析回调函数
--meta（-m）：将传递给回调request的额外request元数据，必须是有效的json字符串
--pipelines：指定item pipeline
--rules（-r）：回调函数用来解析response的rule
--noitems：不要打印item的信息到控制台
--nolinks：不要打印link的信息到控制台
--depth（-d）：应该递归跟踪请求的深度级别（不是很清楚啥意思）
--verbose（-v）：打印每个深度级别的信息

例子
$ scrapy parse http://www.example.com/ -c parse_item
[ ... scrapy log lines crawling example.com spider ... ]

>>> STATUS DEPTH LEVEL 1 <<<
# Scraped Items  ------------------------------------------------------------
[{'name': u'Example item',
 'category': u'Furniture',
 'length': u'12 cm'}]

# Requests  -----------------------------------------------------------------
[]

scrapy settings [options]
获得setting的值（即"设置"的值）
如果在项目中使用，会打印项目的设置，否则会打印Scrapy的设置

例子
$ scrapy settings --get BOT_NAME
scrapybot
$ scrapy settings --get DOWNLOAD_DELAY
0

#运行spider
scrapy runspider <spider_file.py>
例子
$ scrapy runspider myspider.py
[ ... spider starts crawling ... ]

#打印scrapy的版本，如果指定了-v，也会打印python的版本
scrapy version [-v]

#测试本机的爬取速度性能，相当于一个网速测试
scrapy bench

Python爬虫笔记（八）——Scrapy官方文档阅读——Scrapy常用命令集锦

猜你喜欢