python爬虫基础（13：Scrapy框架之架构流程与目录）

框架

对于特别小的爬虫，一般直接编写就可以了，但一般面对一个项目级别的爬虫，都选择用框架

框架可以理解为一个 等你填坑的代码：

1. 为你编写好那些必须的、重复的代码

2. 为你模块化好每一个组件，自动建立组件之间的联系，这样就方便使用者清晰了解它的流程和各功能的定制

Scrapy框架架构和原理

Scrapy就是一个爬虫常用的框架，我们先来了解一下它的结构和原理：

组件图

组件介绍

Scrapy Engine: 这是引擎，负责Spiders、ItemPipeline、Downloader、Scheduler中间的通讯，信号、数据传递等等！（像不像人的身体？）

Scheduler(调度器): 它负责接受引擎发送过来的requests请求，并按照一定的方式进行整理排列，入队、并等待Scrapy Engine(引擎)来请求时，交给引擎。

Downloader（下载器）：负责下载Scrapy Engine(引擎)发送的所有Requests请求，并将其获取到的Responses交还给Scrapy Engine(引擎)，由引擎交给Spiders来处理，

Spiders：它负责处理所有Responses,从中分析提取数据，获取Item字段需要的数据，并将需要跟进的URL提交给引擎，再次进入Scheduler(调度器)，

Item Pipeline：它负责处理Spiders中获取到的Item，并进行处理，比如去重，持久化存储（存数据库，写入文件，总之就是保存数据用的）

Downloader Middlewares（下载中间件）：你可以当作是一个可以自定义扩展下载功能的组件

Spider Middlewares（Spider中间件）：你可以理解为是一个可以自定扩展和操作引擎和Spiders中间‘通信‘的功能组件（比如进入Spiders的Responses;和从Spiders出去的Requests）

执行流程

引擎：Hi！Spider, 你要处理哪一个网站？

Spiders：我要处理23wx.com

引擎：你把第一个需要的处理的URL给我吧。

Spiders：给你第一个URL是XXXXXXX.com

引擎：Hi！调度器，我这有request你帮我排序入队一下。

调度器：好的，正在处理你等一下。

引擎：Hi！调度器，把你处理好的request给我，

调度器：给你，这是我处理好的request

引擎：Hi！下载器，你按照下载中间件的设置帮我下载一下这个request

下载器：好的！给你，这是下载好的东西。（如果失败：不好意思，这个request下载失败，然后引擎告诉调度器，这个request下载失败了，你记录一下，我们待会儿再下载。）

引擎：Hi！Spiders，这是下载好的东西，并且已经按照Spider中间件处理过了，你处理一下（注意！这儿responses默认是交给def parse这个函数处理的）

Spiders：（处理完毕数据之后对于需要跟进的URL），Hi！引擎，这是我需要跟进的URL，将它的responses交给函数 def xxxx(self, responses)处理。还有这是我获取到的Item。

引擎：Hi ！Item Pipeline 我这儿有个item你帮我处理一下！调度器！这是我需要的URL你帮我处理下。然后从第四步开始循环，直到获取到你需要的信息，

注意！只有当调度器中不存在任何request了，整个程序才会停止，（也就是说，对于下载失败的ＵＲＬ，Scrapy会重新下载。）

以上就是Scrapy整个流程了。

（注：以上内容复制静觅的https://cuiqingcai.com/3472.html，写得很生动，就直接粘贴了）

Scrapy目录介绍

1.创建Scrapy项目

命令：scrapy startproject firstscrapy （firstscrapy是自己命名的项目名称，出现以下内容代表成功）

2.项目目录简介：

用pycharm打开刚才创建的项目后，全部展开得到以下目录

----------fisrtscrapy 整个项目的容器

-----------fisrtscrapy 项目文件

----------spider 爬虫文件放这个目录里面，可以放很多，微博啊、知乎啊、豆瓣等

----------__init__.py：爬虫初始化文件，可以先不管

    -----------__init__.py：项目初始化文件，可以先不管

  -----------items.py：定义要爬取数据的格式，这样统一的格式方便数据在各个模块间流转

-----------middlewares.py：中间件，对request等进行定制的模块，相当于一个包装部门，可以先不管

  -----------pipilines.py：对爬到数据进行处理的模块，保存啊、去重啊、修改等

-----------settings.py：对各个模块和功能配置文件，里面全是注释，一般都是用到哪个功能了，就把哪儿的注释取消掉

-----------scrapy.cfg 项目配置文件，可以先不管

认识了Scrapy的架构、流程和目录后，我们下篇将用项目来演示编写流程

python爬虫基础（13：Scrapy框架之架构流程与目录）

框架

Scrapy框架架构和原理

Scrapy目录介绍

猜你喜欢