全局命令
Scrapy 可执行文件命令说明:
Fetch 命令
主要用来显示爬虫爬取的工程。如图:
如果在项目目录之外执行命令,则会调用 Scrapy 默认的爬虫来进行网页的爬取。
可以通过 Fetch 附带的参数进行爬取相关的数据,如:
- --headers 参数来控制显示对应的爬虫爬取网页的头信息。
- --nolog 参数可以控制不显示日志信息。
- --spider=SPIDER 参数来控制那个爬虫。
- --logfile=FILE 参数控制日志存储信息的文件。
- --loglevel=LEVEL 控制日志级别。
Runspider 命令
通过 Runspider 命令可以实现不依托 Scrapy 的爬虫项目,直接运行一个爬虫文件。
Setting 命令
可以查看 Scrapy 对应的配置信息。
Shell 命令
可以启动 Scrapy 的交互终端。
扫描二维码关注公众号,回复:
7022682 查看本文章
Startproject 命令
创建 Scrapy 项目。
version 命令
查看 Scrapy 版本信息。
View 命令可以下载某个网页用浏览器查看的功能。
$ scrapy view http:
//news
.163.com
|
执行命令后会打开默认浏览器并记录相关信息:
项目命令
项目命令需要进入 Scrapy 创建的项目内部执行。
Bench 命令
测试本地硬件的性能。
$ scrapy banch
|
Genspider 命令
使用 Genspider 创建 Scrapy 爬虫文件,这是一种迅速创建爬虫文件的方式。
查看模板:
$ scrapy genspider -l
|
使用 basic 模板创建一个项目:
查看 csvfeed 爬虫模板中的内容:
$ scrapy genspider -d csvfeed
|
Check 命令
实现对某个爬虫文件进行合同检查,这里是对爬虫名进行查询不是文件名。(slzcc 为创建的项目名)
$ scrapy check slzcc
|
Crawl 命令
通过 Crawl 可以启动某个爬虫。
$ scrapy crawl slzcc
|
List 命令
列出当前可以使用的爬虫
$ scrapy list
|
Edit 命令
使用 list 后,可以对爬虫文件进行编辑。
Parse 命令
可以获取指定的 URL 网站。
$ scrapy parse http:
//www
.baidu.com --nolog
|