大数据-MR的运行原理 - 代码天地

大数据-MR的运行原理

其他 2020-02-26 22:17:00 阅读次数: 0

在这里插入图片描述
对上诉图片的详细解释

计算切片：
有几个切片就有几个map task
环形缓存区：
经过map函数的逻辑处理后的数据输出之后，会通过OutputConllector收集器将数据收集到环形缓存区保存环形缓存区的大小默认100M 当保存的数据达到80%时就将缓存区的数据溢出到磁盘上保存
溢出
环形缓存区的数据达到其容量的80%时就会溢出到磁盘上进行保存在此过程中程序会对数据进行分区(默认HashPartition)和排序(默认根据key进行快排)缓存区不断溢出的数据形成多个小文件
合并
溢出的多个小文件各个区合并在一起(0区和0区合并成一个da0区) 形成大文件同归归并排序保证区内的数据有序
shuffle
从过程2到过程7之间(环形缓存区-溢出-合并-shuffle-合并-reduce task) 即map任务和reduce任务之间的数据流称为shuffle(混洗) 而过程5最能体现出混洗这一概念一般情况下一个reduce任务的输入数据来自与多个map任务多个reduce任务的情况下就会出现如过程5所示的每个reduce任务从map的输出数据中获取属于自己的那个分区数据
合并
运行reduce task的节点通过过程5 将来自多个map任务的属于自己的分区数据下载到本地磁盘工作目录这多个分区文件通过归并排序合并成大文件并根据key值分好组(key值相同的 value值会以迭代器的形式组在一起)
reduce task
reduce task 从本地工作目录获取已经分号组并且排好序的数据将数据进行reduce函数中的逻辑处理中
输出
每个reduce task 输出一个结果文件

每天都超级可爱

发布了11 篇原创文章 · 获赞 1 · 访问量 304

私信关注

猜你喜欢

转载自blog.csdn.net/weixin_45106430/article/details/103844735

大数据-MR的运行原理

大数据---hbase基本原理与MR操作Hbase

大数据教程（9.3）MR运行在yarn集群流程分析&&本地模式调试MR程序_

MR Job运行数据：

大数据学习之路12-求网站topN页面，本地模拟方式运行mr程序

大数据教程（8.8）MR内部的shuffle过程详解&combiner的运行机制及代码实现

大数据教程（9.4）用java -jar的方式运行mr程序

大数据框架MapReduce运行原理

大数据开发join的运行原理_大数据培训

大数据入门（12）mr倒排索引.

大数据MR模型以及代码实现

大数据小白系列——MR(3)

大数据小白系列——MR(1)

大数据框架Spark与Hadoop MR的区别

MPP架构与大数据mr的理论区别

大数据---hadoop生态圈之架构HDFS-MR-YARN原理图汇总终极篇

大数据教程（8.2）wordcount程序原理及代码实现/运行

大数据技术，Spark核心技术之运行原理

大数据学习开发技术：MapReduce运行原理

【Hadoop】YARN 原理、MR本地&YARN运行模式

Mr. Cappuccino的第54杯咖啡——Mybatis运行原理

大数据学习之路15-mr运行机制中的排序机制解释--map和reduce两个worker都会对数据按key排序

大数据学习笔记22：MR案例——双MR统计总利润并排序

大数据学习之路21-MR编程，join算法

大数据教程（8.7）流量汇总排序的mr实现

大数据生态学习__HS&MR

大数据学习笔记10：MR案例——词频统计

大数据学习笔记24：利用MR改造Zebra项目

大数据学习笔记21：MR案例——分区全排序

大数据基础——MR编程应用——对中间件的操作

今日推荐

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

GCC 14.1 发布

面壁智能发布 Eurux-8x22B 开源大模型 —— 堪称「理科状元」

开源日报 | 谷歌扶持鸿蒙上位；开源Rabbit R1；Docker加持的安卓手机；微软的焦虑和野心；海尔电器把开放平台关了

中国码农的“35岁魔咒”

蘭雅 CorelDRAW 插件 2024.5.1 国际劳动节版，免费下载

Arc Browser for Windows 1.0 正式 GA

90后程序员开发视频搬运软件、不到一年获利超 700 万，结局很刑！

周排行

Java自定义时间格式

同步整形电路

在开发中最最最常用的字符串的属性大集合

Linux 查看端口占用并杀掉

Java基础四：ArrayList

多线程之死锁就是这么简单

mysql 基础命令集

awk 命令详解

Centos6.3编译安装nginx+php步骤

OCR （Optical Character Recognition，光学字符识别）

每日归档

更多

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)

2024-05-03(19)

2024-05-02(0)

2024-05-01(4)

2024-04-30(1)

2024-04-29(40)