Hadoop中shuffle - 代码天地

Hadoop中shuffle

其他 2019-01-23 14:53:48 阅读次数: 0

先配上官方的图，Shuffle描述着数据从map task输出到reduce task输入的这段过程。
在这里插入图片描述
官方图这边是分成2块，我这边是有再对这2块再细分进去，再自己画了2张图。

map task

在这里插入图片描述
这边有个环形缓冲区，默认的大小是100M。当缓冲区使用达到80%的时候，这时候就会有个溢写的动作，溢写的比例是spill.percent，默认0.8。也就是当缓冲区的数据已经达到阈值（buffer size * spill percent = 100MB * 0.8 = 80MB），溢写线程启动。溢写的过程不影响map持续向环形缓冲区写入数据，毕竟还有20%的内存可以写入。
溢写前，会对环形缓冲区里80M的数据会先按照分区编号排序，然后按照键排序，如果这时候客户端有设置combiner操作，那就会执行combiner操作，减少溢写到磁盘的数据量。
每次溢写会在磁盘中生成一个溢写文件，当map task任务结束后，环形缓冲区里的所有数据也都溢写到了磁盘中，这时候就会有个归并操作，将多个溢写文件归并成一个溢写文件。

reduce task

在这里插入图片描述 reduce task在执行之前的工作就是不断地拉取当前job里每个map task的最终结果。
将数据放入内存缓冲区中，当内存到了一定的阈值（比如内存不足）的时候，就溢写到磁盘中。这边的溢写有3种方式：（1）内存到内存（2）内存到磁盘（3）磁盘到磁盘。使用的方式是内存到磁盘。当内存缓冲区的数据都写入到磁盘后，就启动磁盘到磁盘的方式不断归并成最终文件。最后对这个文件中的键值对按照key进行排序，排序后进行分组，分组后将整个文件交给reduce task处理。

猜你喜欢

转载自blog.csdn.net/xcf111/article/details/83594375

Hadoop-Shuffle洗牌过程，与combine和partition的关系

Hadoop中shuffle

Hadoop计算中的Shuffle过程

Hadoop Mapreduce中shuffle 详解

Hadoop中mapreduce中的shuffle执行流程

hadoop经典系列(七)shuffle中的排序

Hadoop : MapReduce中的Shuffle和Sort分析

草图之------HADOOP中的Shuffle原理

Hadoop与 Spark中的Shuffle之区别与联系

Hadoop中shuffle阶段流程分析

hadoop中mapreduce的shuffle过程详细解释

Hadoop与Spark中的Shuffle过程梳理

Hadoop的shuffle

hadoop shuffle机制中针对中间数据的排序过程

Hadoop深入学习：MapReduce Job中的Shuffle和sort

Hadoop中Map端shuffle过程及源码解析

环形缓冲区-Hadoop Shuffle过程中的利器

关于Hadoop的shuffle

hadoop shuffle过程

(转)关于Hadoop的shuffle

Hadoop Shuffle过程分析

Hadoop Shuffle（洗牌）过程

HADOOP SHUFFLE(转载)

Hadoop的shuffle学习

*****Hadoop的Mapreduce的shuffle过程！！

Spark与Hadoop的shuffle的异同

Hadoop（）MapReduce的shuffle过程

hadoop之shuffle

Hadoop的shuffle问题

Hadoop【2.1】 Shuffle概述

今日推荐

面壁智能发布 Eurux-8x22B 开源大模型 —— 堪称「理科状元」

开源日报 | 谷歌扶持鸿蒙上位；开源Rabbit R1；Docker加持的安卓手机；微软的焦虑和野心；海尔电器把开放平台关了

中国码农的“35岁魔咒”

蘭雅 CorelDRAW 插件 2024.5.1 国际劳动节版，免费下载

Arc Browser for Windows 1.0 正式 GA

90后程序员开发视频搬运软件、不到一年获利超 700 万，结局很刑！

周排行

【转】spring中对控制反转和依赖注入的理解

tms webcore 安装和使用

java程序员进阶相关书籍

SpringMVC接受请求参数、

如何保存训练好的机器学习模型

MyEclipse、Eclipse设置项目JDK的三个地方

商超行业微信小程序开发定制一般多少钱（行业技术人员解读）

Markdown编辑器语言——30分钟入门到到精通

Linux系统下MongoDB的简单安装与基本操作

Power Strings

每日归档

更多

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)

2024-05-03(19)

2024-05-02(0)

2024-05-01(4)

2024-04-30(1)

2024-04-29(40)

2024-04-28(0)