Python 中scrapy 的框架安装以及简单介绍 - 代码天地

Python 中scrapy 的框架安装以及简单介绍

其他 2018-12-15 09:30:56 阅读次数: 0

一、Scrapy的安装

1. 如果电脑中安装有Anaconda 直接输入conda install scrapy 进行安装.

2. 如果没有安装Anaconda,就需要进入http://www.lfd.uci.edu/~gohlke/pythonlibs/，从该网站找到lxml的相关文件。假如是Python3.5版本，WIndows 64位系统，那就找到lxml‑3.7.2‑cp35‑cp35m‑win_amd64.whl 这个文件并下载，然后在终端里输入pip install + 上面下载的文件(找到文件,拖拽到终端即可)。再执行命令conda install scrapy

3测试是否安装成功输出scrapy按回车键现实下图即安装成功

二、框架介绍

在安装了scrapy之后，要设置创建的项目地址通过cd加上空格的形式将文件拉进去

在pycharm中打开,项目结构如图

各部分组件介绍

（1）Scrapy Engine(引擎): 负责Spider、ItemPipeline、Downloader、Scheduler中间的通讯，信号、数据传递等。
（2）Scheduler(调度器): 它负责接受引擎发送过来的Request请求，并按照一定的方式进行整理排列，入队，当引擎需要时，交还给引擎。
（3）Downloader（下载器）：负责下载Scrapy Engine(引擎)发送的所有Requests请求，并将其获取到的Responses交还给Scrapy Engine(引擎)，由引擎交给Spider来处理
（4）Spider（爬虫）：它负责处理所有Responses,从中分析提取数据，获取Item字段需要的数据，并将需要跟进的URL提交给引擎，再次进入Scheduler(调度器)
（5）Item Pipeline(管道)：它负责处理Spider中获取到的Item，并进行进行后期处理（详细分析、过滤、存储等）的地方.（6）Downloader Middlewares（下载中间件）：你可以当作是一个可以自定义扩展下载功能的组件。
（7）Spider Middlewares（Spider中间件）：你可以理解为是一个可以自定扩展和操作引擎和Spider中间通信的功能组件（比如进入Spider的Responses;和从Spider出去的Requests）

猜你喜欢

转载自blog.csdn.net/qq_42543314/article/details/81346912

Python 中scrapy 的框架安装以及简单介绍

Python爬虫框架--Scrapy安装以及简单实用

Python 分布式爬虫框架 Scrapy 4-2 Scrapy安装以及目录结构介绍

在Python虚拟环境中安装scrapy

Python3.6中爬虫框架Scrapy的下载与安装

Windows 10 下在python 3.6中安装scrapy框架包

Windows中python3.6下scrapy框架的安装

python3.7环境中安装scrapy框架

python scrapy框架的安装和简单使用

python爬虫中scrapy框架是否安装成功及简单创建

python安装scrapy框架

python爬虫框架scrapy介绍

Python--Scrapy框架介绍

18、python网路爬虫之Scrapy框架中的CrawlSpider详解

Python爬虫之scrapy框架中ip代理池的设置

Python之爬虫（十八） Scrapy框架中Item Pipeline用法

Python之爬虫（十七） Scrapy框架中Spiders用法

京东全站数据采集之Python中Scrapy框架！很详细！

python中scrapy的学习

Python中Scrapy的使用

python爬虫九：如何在pycharm中安装scrapy，创建一个scrapy项目

windows中python3下安装scrapy

浅谈Python中的scrapy的安装和创建工程。

python 爬虫框架scrapy的安装以及基本操作

关于python中unittest框架的简单介绍

python爬虫随笔-scrapy框架(1)——scrapy框架的安装和结构介绍

（python简单的架构思想）爬虫scrapy框架中的spider的底层是怎么实现的

Python下scrapy框架的安装

python爬虫框架scrapy安装

python爬虫框架Scrapy的安装

今日推荐

开源日报 | Chrome内置Gemini的意义不在于Gemini；中国AI追随之路的五大误区；ECharts创始人“下海”养鱼；谷歌I/O开发者大会什么都有，只是没有惊喜

微软回应中国区AI团队“打包赴美”传闻

基于大语言模型的开源知识库问答系统 MaxKB GitHub Star 数量突破 5,000 个！

美国拟限制 AI 大模型出口中国和俄罗斯

苹果将与 OpenAI 达成协议，将 ChatGPT 应用于 iPhone

openKylin 社区生态委员会第六次会议圆满召开

阿里云正式发布通义千问 2.5

Python 3.13 发布首个 Beta：实验性自由线程模式和 JIT、改进交互式解释器

Stack Overflow 拿我的代码去训练 AI 大模型，还封了我的账号

Pop!_OS 的 COSMIC 桌面完成 App Store 上架工作

《2024 年一季度互联网投融资运行情况》研究报告

报告：Django 仍然是 74% 开发者的首选

周排行

laravle中orm简单的增删改查

文本分类特征选取之CHI开方检验

Spark核心编程-WordCount

大数据开发实战系列之电信客服(1)

读书笔记 - 把时间当作朋友 by 李笑来

python 笔记--if else

SpringBoot/Mybatis/Druid, 多数据源MultiDataSource配置思路

排序三个整数

redis集群搭建【2】-Windows中Redis集群搭建

STM32F030驱动TM1650点亮4联数码管

每日归档

更多

2024-05-16(6)

2024-05-15(24)

2024-05-14(0)

2024-05-13(18)

2024-05-12(0)

2024-05-11(38)

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)