关于Scrapy: 如何分别从Spider、Middleware、Pipeline获取settings.py里的参数 - 代码天地

关于Scrapy: 如何分别从Spider、Middleware、Pipeline获取settings.py里的参数

其他 2018-10-13 14:37:32 阅读次数: 0

运行环境

PyCharm 2018.1
Scrapy 1.5.1
Python 3.5.4
Windows 10

settings的优先级

官方文档中scrapy中settings参数有四个级别：

命令行选项(Command line Options)(最高优先级)
项目设定模块(Project settings module)
命令默认设定模块(Default settings per-command)
全局默认设定(Default global settings) (最低优先级)

Spider

在parse()函数中获取settings

def parse(self, response):
	print(self.settings.get('CONFIG_KEY'))

在实例化spider时获取settings:

class MySpider:
	def __init__(self, settings, *args, **kwargs):
		super(MySpider, self).__init__( *args, **kwargs)
		print(settings.get('CONFIG_KEY'))
	@classmethod
	def from_crawler(cls, crawler, *args, **kwargs):
		spider = cls(crawler.settings, *args, **kwargs)
		spider._set_crawler(crawler)
		return spider

Middleware & Pipeline

通过处理方法里传入的spider参数获取：
比如Middleware中的process_spider_input方法：

def process_spider_input(response, spider):
	print(spider.settings.get('CONFIG_KEY'))

在实例化时获取settings:

class MyMiddleware:
	def __init__(self, settings):
		print(setting.get('CONFIG_KEY'))
	@classmethod
	def from_crawler(cls, crawler):
		return cls(crawler.settings)

一个清晰简单但有风险的方法：get_project_setting()

from scrapy.utils.project import get_project_settings
...
def parse(self, response):
	settings = get_project_settings()
	print(settings.get('CONFIG'))

pros: 简单明了
cons: 不能识别从command line 中传入的参数， command line 传入的参数具有最高优先级

参考文档：

猜你喜欢

转载自blog.csdn.net/weixin_40841752/article/details/82900326

关于Scrapy: 如何分别从Spider、Middleware、Pipeline获取settings.py里的参数

scrapy配置参数(settings.py)

scrapy settings.py简单设置

scrapy_系统设置_settings.py

scrapy中的settings.py文件详情

Python爬虫系列之----Scrapy里settings.py配置文件详解

关于 Scrapy 中自定义 Spider 传递参数问题

记忆碎片之python爬虫scrapy框架settings.py参数

Scrapy Spider MiddleWare 设置

Scrapy中的Spider Middleware

Scrapy——Spider Middleware

scrapy 中settings.py配置文件详解

Scrapy爬虫之settings.py配置文件详解

Scrapy settings.py配置文件详解

scrapy 中 settings.py 中字段的意思

scrapy常用settings.py内设置详情

Scrapy 遇到的小坑_关于payload参数_scrapy第一次发送POST请求

Scrapy框架的学习(8.scrapy中settings.py里面配置说明以及怎样设置配置或者参数以及怎样使用)

关于scrapy

Scrapy_settings.py

爬虫(十六)：Scrapy框架(三) Spider Middleware、Item Pipeline、对接Selenium

Scrapy中如何向Spider传入参数

Python3~scrapy项目下settings.py日志问题

Scrapy-拓展类和settings.py配置文件

Python爬虫系列之----Scrapy(六)settings.py配置文件详解

Python爬虫教程-32-Scrapy 爬虫框架项目 Settings.py 介绍

Python爬虫之Scrapy框架系列（6）——settings.py配置文件的学习

python-scrapy框架（四）settings.py文件的用法详解实例

Scrapy框架的使用之Spider Middleware的用法

Scrapy框架（三）：Spider Middleware的用法

今日推荐

面壁智能发布 Eurux-8x22B 开源大模型 —— 堪称「理科状元」

开源日报 | 谷歌扶持鸿蒙上位；开源Rabbit R1；Docker加持的安卓手机；微软的焦虑和野心；海尔电器把开放平台关了

中国码农的“35岁魔咒”

蘭雅 CorelDRAW 插件 2024.5.1 国际劳动节版，免费下载

Arc Browser for Windows 1.0 正式 GA

90后程序员开发视频搬运软件、不到一年获利超 700 万，结局很刑！

周排行

OOP第二次作业

java web 乱码问题

android 禁止scrollview 因控件变化自动滚动到底的方法

mysql服务解压版的安装(5.7)

centos7 nginx+tomcat配置https 安装免费SSL Let’s Encrypt

使用Mosquitto遗嘱机制实现感知客户端上下线功能的方法

面向对象之------多态与多态性

开发Teams Tabs应用程序

C# 希尔排序

第2章 Jupyter Notebooks

每日归档

更多

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)

2024-05-03(19)

2024-05-02(0)

2024-05-01(4)

2024-04-30(1)

2024-04-29(40)

2024-04-28(0)

2024-04-27(56)