scrapy 中间件 - 代码天地

scrapy 中间件

其他 2018-05-22 15:06:40 阅读次数: 2

一、中间件的分类

　　scrapy的中间件理论上有三种(Schduler Middleware,Spider Middleware,Downloader Middleware),在应用上一般有以下两种

1.爬虫中间件Spider Middleware

主要功能是在爬虫运行过程中进行一些处理.

　　2.下载器中间件Downloader Middleware

主要功能在请求到网页后,页面被下载时进行一些处理.

二、使用

1.Spider Middleware有以下几个函数被管理:

- process_spider_input 接收一个response对象并处理,

位置是Downloader-->process_spider_input-->Spiders(Downloader和Spiders是scrapy官方结构图中的组件)

- process_spider_exception spider出现的异常时被调用

- process_spider_output 当Spider处理response返回result时,该方法被调用

- process_start_requests 当spider发出请求时,被调用

　　位置是Spiders-->process_start_requests-->Scrapy Engine(Scrapy Engine是scrapy官方结构图中的组件)

　 2.Downloader Middleware有以下几个函数被管理

　　 - process_request request通过下载中间件时，该方法被调用

　　 - process_response 下载结果经过中间件时被此方法处理

　　 - process_exception 下载过程中出现异常时被调用

编写中间件时,需要思考要实现的功能最适合在那个过程处理,就编写哪个方法.

中间件可以用来处理请求,处理结果或者结合信号协调一些方法的使用等.也可以在原有的爬虫上添加适应项目的其他功能,这一点在扩展中编写也可以达到目的,实际上扩展更加去耦合化,推荐使用扩展.

三.常用功能

downloader middleware中常用功能：

1) 添加User-Agent

2) 添加Proxy

3) 动态网页使用无头浏览器处理

猜你喜欢

转载自www.cnblogs.com/zenan/p/9072065.html

scrapy 中间件

scrapy中间件

Scrapy的中间件

scrapy之中间件

爬虫 - Scrapy中间件

Scrapy中间件应用

scrapy中间件的简介

scrapy中间件的应用

爬虫-scrapy的中间件

Scrapy框架-中间件

09 scrapy中间件

scrapy框架的中间件

Scrapy的中间件（一）

Scrapy之下载中间件与爬虫中间件

scrapy 爬虫中间件 httperror中间件

scrapy下载中间件源码浅析

Scrapy-下载中间件

(10).scrapy配置下载中间件

爬虫 - scrapy之中间件

Scrapy代理和中间件

爬虫（十四）：scrapy下载中间件

scrapy-下载器中间件

彻底搞懂Scrapy的中间件（三）

彻底搞懂Scrapy的中间件（二）

scrapy 下载中间件总结

scrapy Downloader Middlewares 中间件

三十二、scrapy中间件的使用

scrapy框架中间件配置代理

彻底搞懂Scrapy的中间件（一）

scrapy3 中间件的使用

今日推荐

国产云输入法——仅华为无云端数据上传安全问题

开源日报 | 工业开源项目OGG 1.0；姐姐，你要和我一起配置火狐吗；苹果AI遥遥落后？Fedora 40

开放签电子签章：停止新增，优化体验，前进更进（五一假期前工作）

开源日报 | 中学生开源前端动画引擎；全球首个Llama3 8B中文版开源模型；联想电脑恐出局；Linus讽刺AI炒作

“百模大战”必有一战 | 2024中国“百模大战”竞争格局分析

最强开源大模型 Llama 3 上架 Gitee AI

虽然老乡鸡开源的不是代码，但背后的原因却让人很暖心

周排行

决策树的部分理解

STM32软件IIC的实现

RocketMQ原理解析-HA

vue-动态路由（路由的传参和接参）

利用python对Excel中的特定数据提取并写入新表

【Ubuntu】 Ubuntu16.04搭建NFS服务

Elasticsearch基础操作与对应的curl命令行，python对接实现

JVM数据存储结构 & Java的值传递和址传递

yum命令使用指南

java基础（一）：java语法基础

每日归档

更多

2024-04-24(36)

2024-04-23(26)

2024-04-22(39)

2024-04-21(0)

2024-04-20(6)

2024-04-19(5)

2024-04-18(0)

2024-04-17(5)

2024-04-16(70)

2024-04-15(42)