入门|Python爬虫架构介绍 - 代码天地

入门|Python爬虫架构介绍

其他 2018-11-16 14:20:41 阅读次数: 0

大数据时代，海量数据的获取离不开爬虫技术。再加上代理IP的帮助，爬虫技术的应用也就越来越广泛。许多企业和个人开始学习爬虫技术，而学习爬虫技术首先要掌握爬虫框架。
Python爬虫架构主要由五个部分组成，分别是调度器、URL管理器、网页下载器、网页解析器、应用程序（爬取的有价值数据）。
调度器：相当于一台电脑的CPU，主要负责调度URL管理器、下载器、解析器之间的协调工作。
URL管理器：包括待爬取的URL地址和已爬取的URL地址，防止重复抓取URL和循环抓取URL，实现URL管理器主要用三种方式，通过内存、数据库、缓存数据库来实现。
网页下载器：通过传入一个URL地址来下载网页，将网页转换成一个字符串，网页下载器有urllib2（Python官方基础模块）包括需要登录、代理、和cookie，requests(第三方包)
网页解析器：将一个网页字符串进行解析，可以按照我们的要求来提取出我们有用的信息，也可以根据DOM树的解析方式来解析。网页解析器有正则表达式（直观，将网页转成字符串通过模糊匹配的方式来提取有价值的信息，当文档比较复杂的时候，该方法提取数据的时候就会非常的困难）、html.parser（Python自带的）、beautifulsoup（第三方插件，可以使用Python自带的html.parser进行解析，也可以使用lxml进行解析，相对于其他几种来说要强大一些）、lxml（第三方插件，可以解析xml和HTML），html.parser和beautifulsoup以及lxml都是以DOM树的方式进行解析的。
应用程序：就是从网页中提取的有用数据组成的一个应用。
下面用一个图来解释一下调度器是如何协调工作的
入门|Python爬虫架构介绍
了解了Python爬虫架构可以帮助我们更好的爬取数据，不过频繁操作爬取可能会导致IP受限哦，所以得使用代理IP软件哦~

猜你喜欢

转载自blog.51cto.com/14062184/2317837

入门|Python爬虫架构介绍

python爬虫入门request 常用库介绍

Python学习爬虫（3）——BeautifulSoup入门介绍

python 爬虫《百炼成佛》爬虫入门（爬虫介绍）第一个爬虫程序

爬虫快速入门——爬虫介绍

【Python数据挖掘课程】一.安装Python及爬虫入门介绍

爬虫入门介绍

python(scrapy爬虫架构)

Python爬虫介绍

Python 爬虫介绍

python爬虫介绍2

python爬虫介绍1

python爬虫---XPath介绍

python 网络爬虫介绍

python爬虫的基本介绍

python爬虫-入门-了解爬虫

Python爬虫从入门到精通(1): 爬虫原理, urllib库介绍及5个适合新手练手的爬虫

Python学习笔记--Python 爬虫入门 -18-3 Scrapy架构+案例

Python爬虫分布式架构 - Redis/RabbitMQ工作流程介绍

python-爬虫入门

(转载)python爬虫入门

python爬虫入门(解析)

python 爬虫入门

Python爬虫入门：综述

python爬虫入门

python爬虫_入门_翻页

python　爬虫入门

python 爬虫入门

Python爬虫入门项目

python爬虫入门（1）

今日推荐

开源日报 | Chrome内置Gemini的意义不在于Gemini；中国AI追随之路的五大误区；ECharts创始人“下海”养鱼；谷歌I/O开发者大会什么都有，只是没有惊喜

微软回应中国区AI团队“打包赴美”传闻

基于大语言模型的开源知识库问答系统 MaxKB GitHub Star 数量突破 5,000 个！

美国拟限制 AI 大模型出口中国和俄罗斯

苹果将与 OpenAI 达成协议，将 ChatGPT 应用于 iPhone

openKylin 社区生态委员会第六次会议圆满召开

阿里云正式发布通义千问 2.5

Python 3.13 发布首个 Beta：实验性自由线程模式和 JIT、改进交互式解释器

Stack Overflow 拿我的代码去训练 AI 大模型，还封了我的账号

Pop!_OS 的 COSMIC 桌面完成 App Store 上架工作

《2024 年一季度互联网投融资运行情况》研究报告

报告：Django 仍然是 74% 开发者的首选

周排行

laravle中orm简单的增删改查

文本分类特征选取之CHI开方检验

Spark核心编程-WordCount

大数据开发实战系列之电信客服(1)

读书笔记 - 把时间当作朋友 by 李笑来

python 笔记--if else

SpringBoot/Mybatis/Druid, 多数据源MultiDataSource配置思路

排序三个整数

redis集群搭建【2】-Windows中Redis集群搭建

STM32F030驱动TM1650点亮4联数码管

每日归档

更多

2024-05-16(6)

2024-05-15(24)

2024-05-14(0)

2024-05-13(18)

2024-05-12(0)

2024-05-11(38)

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)