分布式的开发与运行流程 - 代码天地

分布式的开发与运行流程

其他 2019-05-03 21:31:04 阅读次数: 0

部署流程

首先在master端（服务端），部署redis数据库、MySQL数据库等数据存储工具；
然后在slaver端（分机端）部署分布式爬虫框架；
注意点：在开发的时候首先要保证你的爬虫可以在单机系统下运行成功（数据爬取没问题，反爬也成功解决），然后再进行分布式部署

运行原理

把所有的分机（slaver）的爬虫运行起来，由于没有start_urls列表，所有分机爬虫现在都在等待start_urls的产生
通过服务器脚本把那些起始的url放入到“xxx:start_urls”这个redis键中
所有的slaver去竞争master端的start_urls中的url，一旦竞争到则立即进行爬取，没有竞争到url的slaver（分机）继续等待并监视start_urls和requestsl两个队列
所有分机如果对某个url访问成功则会把对应的url放入到去重队列dupefilter中，如果没有访问成功，则会启动爬虫本身的重传组件进行重传，多次都不成功，则把这个url重新加入到requests里面供其他人使用
爬取成功的爬虫通过分布式管道组件将爬取到的数据存入redis数据库的xxx：items这个key中，把爬虫过程中新产生的那些url放入到requests中
所有的监视requests的那些爬虫从其获取到url，进行爬取，周而复始，直至所有的url全部都进入到去重队列为止

分布式数据库

数据库中有4个key
xxx：start_urls：
起始url，在开启分布式爬虫的时候，所有的slaver端，会从这个key中去提取url（多台主机同时来竞争，竞争到url则发起请求，竞争不到等待），并且对提取到的url发起请求，然后会产生一些新的url，这些新产生的url会放入到xxx：requests这个key中，所有被访问过的start_urls中的url全部都会被删除掉，进入到dupefilter中
xxx：requests：
用于盛放在爬虫运行的过程中新产生的那些url，所有的分布式系统中的slaver端除了竞争start_urls里面的url外，还会竞争requests里面的url，得到url以后发起请求，并且把请求完新产生的url放入到本队列中，同时把访问成功的url从这里删除掉并且放入到dupefilter中
xxx：items：
用于存储爬虫过程中产生的待爬取数据
xxx：depefilter：
存放已经成功爬取过的那些url，是一个去重列表；

猜你喜欢

转载自blog.csdn.net/weixin_44601149/article/details/89682789

分布式的开发与运行流程

dubbo分布式项目开发流程

分布式- wordcount程序整体运行流程

完全分布式运行模式（开发重点）

完全分布式运行模式（开发重点)

分布式扩展流程

分布式配置流程

tensorflow分布式运行

分布式设计与开发

分布式开发的优点

关于分布式开发

分布式开发简介

分布式的项目开发

JAVA分布式开发

分布式开发杂谈

分布式程序开发

solrCloud分布式检索流程

Git分布式工作流程

tomcat分布式会话管理流程

scrapy分布式爬虫的流程

ZooKeeper分布式锁的流程

分布式架构的演变流程

Hadoop完全分布式搭建流程

hadoop伪分布式安装流程

jmeter分布式部署流程

HDFS的读写流程（完全分布式）

分布式设计与开发（六）------让memcached分布式

（六）Locust 分布式运行

Flink-分布式运行环境

Flink 分布式运行模式

今日推荐

深入浅出：大型语言模型（LLM）的全面解读

顶会ICLR2024论文Time-LLM：基于大语言模型的时间序列预测

计量经济学与stata应用（二）：内生性问题与工具变量

一文通透想取代MLP的KAN：通俗理解Kolmogorov-Arnold定理和KAN的方方面面

【SPIE独立出版，往届均已见刊并完成EI、SCOPUS检索 | 四川省人工智能学会主办】第四届大数据、人工智能与风险管理国际学术会议 (ICBAR 2024)

State 微调、PointRWKV、中文文档上线……RWKV 社区 5 月最新动态来啦！

开源日报 | 开箱即用的ChatTTS安装包；Scaling Law是经验公式；二娃奶爸AI复活旧玩具；中国工程院院士谈AI；自主内核MCU故事难讲？TikTok“美国特供版”推荐算法

手把手教你用 LangChain 实现大模型 Agent

外星人入侵（python）

超全的免费chatGPT列表【建议收藏】

52.2k star! 自己部署gpt4free, 免费使用各种GPT

2024年（第十届）全国大学生统计建模大赛优秀论文解析——中国经济发展与碳排放库兹涅茨曲线的验证研究

周排行

JDBC方式链接MySQL

基于墨刀设计的精美视频推荐系统

Qt bas64编码解码

全网最全JS正则表达式校验数字

photoshop与ai绘图笔记

POJ2001 Shortest Prefixes【字典树】

线程的4种通信方式

redis 五大类型、持久化方式以及主从(哨兵模式)

今日工作总结：06/03

mysql: join

每日归档

更多

2024-05-31(47)

2024-05-30(4)

2024-05-29(65)

2024-05-28(2)

2024-05-27(56)

2024-05-26(6)

2024-05-25(68)

2024-05-24(65)

2024-05-23(9)

2024-05-22(41)