Python爬虫笔记(八)——Scrapy官方文档阅读——Scrapy常用命令集锦

#在project_dir目录下创建名为project_name的爬虫项目,如果不指定project_dir,
默认目录名为项目名称
scrapy startproject <project_name> [project_dir]
#获得可用命令集锦
scrapy -h
#查看某条命令如何使用
scrapy <command> -h
#使用模板创建一个爬虫(注意是爬虫,即包含有爬虫代码的文件,不是爬虫项目,一个爬虫项目包含有许多文件,其中就包括包含爬虫代码的文件)
scrapy genspider [-t template] <name> <domain>

#template,使用的模板,可选值:basic、crawl、csvfeed、xmlfeed
#name,爬虫文件的名称
#domain,用于设置爬虫的allowed_domains和start_urls属性
scrapy genspider [-t template] <name> <domain>
#启动名为spider的爬虫
scrapy crawl <spider>
需要在项目目录中
#检查代码是否有错,-l:列出爬虫的所有方法
scrapy check [-l] <spider>
需要在项目目录中
#列出本项目的所有可用爬虫
scrapy list
需要在项目目录中使用
#编辑名为<spider>的爬虫的代码
scrapy edit <spider>
需要在项目目录中使用
#返回网页源代码,具有一些可选参数
scrapy fetch <url>
#--headers:打印http响应的头部信息,不答应网页源代码
#--no-redirect:不响应重定向
#--spider=SPIDER:使用特定的爬虫爬取
scrapy fetch <url>
#打开浏览器查看网页,值得注意的是,我们看到的将是爬虫看到的界面,意味着ajax、js不会被执行,对于分析网页是否是动态页面十分有效,
具有一些可选参数
scrapy view <url>
#--spider=SPIDER:使用特定爬虫爬取
#--no-redirect:不允许重定向
scrapy view <url>
#开启shell平台,可用于测试,支持一些参数,这个命令比较特殊,以后在补充
scrapy shell [url]
#获得url的响应,根据-callback指定函数(如果没有指定,默认为parse)进行解析
scrapy parse <url> [options]
必须在项目目录中
支持的选项:
--spider=SPIDER:指定特定的爬虫
--a NAME=VALUE:指定爬虫构造函数的参数
--callback(-c):指定解析回调函数
--meta(-m):将传递给回调request的额外request元数据,必须是有效的json字符串
--pipelines:指定item pipeline
--rules(-r):回调函数用来解析response的rule
--noitems:不要打印item的信息到控制台
--nolinks:不要打印link的信息到控制台
--depth(-d):应该递归跟踪请求的深度级别(不是很清楚啥意思)
--verbose(-v):打印每个深度级别的信息

例子
$ scrapy parse http://www.example.com/ -c parse_item
[ ... scrapy log lines crawling example.com spider ... ]

>>> STATUS DEPTH LEVEL 1 <<<
# Scraped Items  ------------------------------------------------------------
[{'name': u'Example item',
 'category': u'Furniture',
 'length': u'12 cm'}]

# Requests  -----------------------------------------------------------------
[]
scrapy settings [options]
获得setting的值(即"设置"的值)
如果在项目中使用,会打印项目的设置,否则会打印Scrapy的设置

例子
$ scrapy settings --get BOT_NAME
scrapybot
$ scrapy settings --get DOWNLOAD_DELAY
0
#运行spider
scrapy runspider <spider_file.py>
例子
$ scrapy runspider myspider.py
[ ... spider starts crawling ... ]
#打印scrapy的版本,如果指定了-v,也会打印python的版本
scrapy version [-v]
#测试本机的爬取速度性能,相当于一个网速测试
scrapy bench

猜你喜欢

转载自blog.csdn.net/dhaiuda/article/details/81488072