常用工具命令

常用工具命令


全局命令

Scrapy 可执行文件命令说明:

Fetch 命令

主要用来显示爬虫爬取的工程。如图:

如果在项目目录之外执行命令,则会调用 Scrapy 默认的爬虫来进行网页的爬取。

可以通过 Fetch 附带的参数进行爬取相关的数据,如:

  • --headers 参数来控制显示对应的爬虫爬取网页的头信息。 
  • --nolog 参数可以控制不显示日志信息。
  • --spider=SPIDER 参数来控制那个爬虫。
  • --logfile=FILE 参数控制日志存储信息的文件。
  • --loglevel=LEVEL 控制日志级别。

Runspider 命令

通过 Runspider 命令可以实现不依托 Scrapy 的爬虫项目,直接运行一个爬虫文件。

Setting 命令

可以查看 Scrapy 对应的配置信息。

Shell 命令

可以启动 Scrapy 的交互终端。

扫描二维码关注公众号,回复: 7022682 查看本文章

Startproject 命令

创建 Scrapy 项目。

version 命令

查看 Scrapy 版本信息。

View 命令可以下载某个网页用浏览器查看的功能。

$ scrapy view http: //news .163.com

执行命令后会打开默认浏览器并记录相关信息:

项目命令

项目命令需要进入 Scrapy 创建的项目内部执行。

Bench 命令

测试本地硬件的性能。

$ scrapy banch

Genspider 命令

使用 Genspider 创建 Scrapy 爬虫文件,这是一种迅速创建爬虫文件的方式。

查看模板:

$ scrapy genspider -l

使用 basic 模板创建一个项目:

查看 csvfeed 爬虫模板中的内容:

$ scrapy genspider -d csvfeed

Check 命令

实现对某个爬虫文件进行合同检查,这里是对爬虫名进行查询不是文件名。(slzcc 为创建的项目名)

$ scrapy check slzcc

Crawl 命令

通过 Crawl 可以启动某个爬虫。

$ scrapy crawl slzcc

List 命令

列出当前可以使用的爬虫

$ scrapy list

Edit 命令

使用 list 后,可以对爬虫文件进行编辑。

Parse 命令

可以获取指定的 URL 网站。

$ scrapy parse http: //www .baidu.com --nolog
 
 
 

猜你喜欢

转载自www.cnblogs.com/dalton/p/11353880.html