python爬虫框架之Scrapy配置文件详解

概述

简介

配置文件是settings.py

官网配置文档

爬取的相关配置

DOWNLOAD_DELAY

下载者从同一网站下载连续页面之前应等待的时间,可以用来限制爬行速度

单位秒,支持十进制数,如:DOWNLOAD_DELAY = 0.25 # 250 ms of delay

DOWNLOAD_DELAY

允许为任何站点爬行的最大深度。如果为零,则不会施加任何限制(默认:0)

DEFAULT_REQUEST_HEADERS

Scrapy的HTTP请求使用的默认header

COOKIES_ENABLED

是否使用cookie(默认true)

USER_AGENT

爬网时使用的默认User-Agent

提取相关配置

FEED_EXPORT_ENCODING

设置导出时文件的编码

环境变量相关配置

BOT_NAME

项目名

SPIDER_MODULES

Scrapy将在其中查找蜘蛛的模块列表

NEWSPIDER_MODULE

模块在何处使用 genspider 命令

ROBOTSTXT_OBEY

是否遵守robots协议(默认: True)robots协议

CONCURRENT_REQUESTS 

Scrapy下载程序将执行的最大并发请求数(默认: 16)

DOWNLOAD_TIMEOUT

下载器超时时间(单位: 秒)(默认: 180)

CONCURRENT_REQUESTS_PER_DOMAIN

对单个网站进行并发请求的最大值(默认: 8)

CONCURRENT_REQUESTS_PER_IP

将对任何单个IP执行的最大并发请求数(默认: 0)

如果非零,则 CONCURRENT_REQUESTS_PER_DOMAIN 设置被忽略,而是使用此设置,换句话说,并发限制将应用于每个IP,而不是每个域

功能相关配置

TELNETCONSOLE_ENABLED

Telnet Console是否被启用(默认true) telnet console

SPIDER_MIDDLEWARES 

项目中启用的爬虫中间件及其顺序的字典

DOWNLOADER_MIDDLEWARES

项目中启用的下载中间件及其顺序的字典

EXTENSIONS

项目中启用的扩展及其顺序的字典

ITEM_PIPELINES

项目中启用的pipeline及其顺序的字典

# key【pipeline的类全名】:value【优先等级,越小越高】

日志相关配置

LOG_ENABLED

是否启用logging(默认: True)

LOG_ENCODING

logging使用的编码(默认: 'utf-8')

LOG_FILE

logging输出的文件名,如果为None,则使用标准错误输出(默认: None)

LOG_FORMAT

日志的数据格式(默认: '%(asctime)s [%(name)s] %(levelname)s: %(message)s')

LOG_DATEFORMAT

日志的日期格式(默认: '%Y-%m-%d %H:%M:%S')

LOG_LEVEL

log的最低级别。可选的级别有: CRITICAL、 ERROR、WARNING、INFO、DEBUG(默认: 'DEBUG')

LOG_STDOUT

如果为 True ,进程所有的标准输出(及错误)将会被重定向到log中(默认: False)

猜你喜欢

转载自blog.csdn.net/m0_63040701/article/details/131571092