python爬虫之Scrapy框架的架构原理和基本命令

Scrapy框架

Scrapy使用了Twisted作为框架,Twisted有些特殊的地方是它是事件驱动的, 并且比较适合异步的代码, 对于会阻塞线程的操作包含访问文件, 数据库或者Web, 产生新的进程并需要处理新进程的输出(如运行shell命令), 执行系统层次操作的代码(冗余等待系统队列), Twisted提供了允许执行上面的操作但不会阻塞代码执行的方法.

Scrapy流程图 :

　　Scrapy数据流是由执行的核心引擎(engine)控制, 流程如下 :

　　　　1. 爬虫引擎engine获得初始请求开始抓取.

　　　　2. 爬虫引擎engine开始请求调度程序scheduler, 并准备对下一次的请求进行抓取.

　　　　3. 爬虫调度器返回下一个请求给爬虫引擎.

　　　　4. 引擎请求发送端奥下载器downliader, 并准备对下一次的请求进行抓取.

　　　　5. 一旦下载器完成页面下载, 将下载结果返回给爬虫引擎engine.

　　　　6. 爬虫引擎engine将下载器downloader的响应通过中间件middlewares返回给爬虫spiders进行处理.

　　　　7. 爬虫spiders处理响应, 并通过中间件middlewares返回处理后的items, 以及新的请求给引擎.

　　　　8. 引擎发送处理后的items到项目管道, 然后把处理结果返回给调度器scheduler, 调度器计划处理下一个请求抓取.

　　　　9. 重复该过程(继续步骤1), 知道将所有url爬取完毕.

组件功能 :

　　爬虫引擎(engine)

　　　　爬虫引擎负责控制各个组件之间的数据流, 当某些操作触发事件后都是通过engine来处理.

　　调度器(scheduler)

　　　　调度器收来engine的请求并将请求放入队列中, 并通过事件返回给engine.

　　下载器(downloader)

　　　　通过engine请求下载网络数据并将结果响应给engine.

　　Spider

　　　　Spider发出请求, 并处理engine返回给它下载器响应回来的数据, 以items和规则内的数据请求(urls)返回给engine

　　管道项目(items pipeline)

　　　　负责处理engine返回spider解析后的数据, 并且将数据持久化吗例如将数据存入数据库后者文件.

　　下载中间件

　　　　下载中间件是engine和下载器交互组件, 以钩子(插件)的形式存在, 可以带替接收请求, 处理数据的下载以及将结果响应给engine

　　spider中间件

　　　　spider中间件是engine和spider之间的交互组件, 以钩子的形式存在, 可以代替处理response以及返回给engine items及新的请求集.

Scrapy框架的基本命令

创建Scrapy项目

　　创建scrapy项目的命令是scrapy startproject ''项目名'', 创建一个爬虫项目,

　　进入到项目目录scrapy genspider ''爬虫名字'' ''爬虫的域名''

xxxdeMBP:python_project xxx$ scrapy startproject test1
New Scrapy project 'test1', using template directory '/Library/Frameworks/Python.framework/Versions/3.5/lib/python3.5/site-packages/scrapy/templates/project', created in:
    /Users/xxx/Documents/python_project/test1

You can start your first spider with:
    cd test1
    scrapy genspider example example.com
xxxdeMBP:python_project zhaofan$ 
xxxdeMBP:test1 xxx$ scrapy genspider shSpider hshfy.sh.cn
Created spider 'shSpider' using template 'basic' in module:
  test1.spiders.shSpider

scrapy项目结构 :

　　items.py 负责数据模型的建立, 类似于实体类

　　middleares.py 自己定义的中间件

　　pipelines.py 负责对spider返回数据的处理

　　settings.py 负责对整个爬虫的配置

　　spiders目录负责存放继承自scrapy的爬虫类

　　scrapy.cfg scrapy基础配置

关于命令的详细使用 :

　　命令的使用范围 :

　　　　使用命令分为全局命令和项目命令, 全局的命令表示可以在任何地方使用, 而项目的命令只能在项目目录下使用

　　　　全局命令 :

　　　　　　startproject : 创建爬虫项目

　　　　　　genspider : 用于生成爬虫

　　　　　　settings : 获取当前的配置信息(scrapy settings -h获取此命令的所有帮助信息)

　　　　　　runspider : 启动爬虫程序(和crawl启动不同, 通过scrapy runspider 爬虫文件名启动)

　　　　　　shell : 是一个命令行交互模式(scrapy shell url地址进入交互模式)

　　　　　　fetch : 该命令会通过scrapy downloader将网页源码下载下来显示(scrapy fetch url地址)

　　　　　　view : 该命令会将网页document内容下载下来, 并且在浏览器显示(scrapy view url地址)

　　　　　　version : 查看版本信息, 并查看依赖库的信息

　　　　项目命令 :

　　　　　　crawl : 启动爬虫程序(scrapy crawl 爬虫名字)

　　　　　　check : 用于检查代码是否有错误(scrapy check)

　　　　　　list : scrapy list列出可用的爬虫

　　　　　　edit

　　　　　　parse

　　　　　　bench

python爬虫之Scrapy框架的架构原理和基本命令

猜你喜欢