内核源码分析——shuffle - 代码天地

内核源码分析——shuffle

其他 2020-06-29 20:41:32 阅读次数: 0

中华石衫版本

---------------------------------------------------------------------

1——每个shuffleMapTask都会为每个ResultTask创建一份bucket缓存，以及对应的shuffleBlockFile磁盘文件；

2——shuffleMapTask的输出，会作为MapStatus，发送到DAGScheduler的MapOutputTrackerMaster，MapStatus包含了每个ResultTask要拉取数据的大小；

3——每个ResultTask会用BlockStoreShuffleFecher去MapOutputTrackerMaster获取自己要拉取的文件的信息，然后底层通过BlockManager将数据拉取过来；

4——每个ResultTask拉取过来的数据，其实就会组成一个内部的RDD，将shuffledRDD，优先放入内存，如果不够再写入磁盘；

5——然后每个ResultTask针对数据进行聚合，最后生成MapPartitionsRDD，就是我们进行reduceByKey等操作希望获得的那个RDD；

6——新版本中，引入了consolidation机器，提出了shuffleGroup概念。可以将shuffleMapTask追加到之前的写入中，相当于对多个shuffleMapTask的输出进行了合并，从而减少了

本地文件的数量；

猜你喜欢

转载自www.cnblogs.com/muyue123/p/13210085.html

内核源码分析——shuffle

Shuffle操作的原理与源码分析

MapTask阶段shuffle源码分析

小记--------spark的shuffle原理分析及源码分析

Spark:Shuffle原理剖析与源码分析

spark源码阅读--shuffle过程分析

21、Shuffle原理剖析与源码分析

Spark内核源码深度剖析（9） - Shuffle原理

Linux内核源码分析

Spark源码解读之Shuffle原理剖析与源码分析

spark源码阅读--shuffle读过程源码分析

[spark内核]shuffle机制

linux内核OOM源码分析

分析内核源码，设备树

Linux内核源码分析方法

【linux内核】 libfuse 源码分析

Linux 内核源码分析 -- read

SylixOS --- 内核源码目录分析

Spark Core（十七）Spark的Shuffle原理与源码分析

MapReduce阶段源码分析以及shuffle过程详解

SparkSQL 之 Shuffle Join 内核原理及应用深度剖析-Spark商业源码实战

鸿蒙内核源码分析(必读篇)|用故事说内核

【Linux内核源码分析】 Linux内核中watchdog

ifconfig源码分析之与内核交互数据

Linux_内核源码分析方法

深入分析Linux内核源码

Epoll详解及源码分析----内核讲解

读Linux内核源码情景分析（一）

linux内核源码do_fork分析

linux内核源码目录结构分析

今日推荐

《美国对全球网络空间安全与发展的威胁和破坏》报告发布

火速冲上 GitHub 热榜 —— 开源编程语言、框架哪有这么可爱？

北京人形机器人创新中心发布全球首个纯电驱拟人奔跑的全尺寸人形机器人“天工”

LFOSSA 源来如此公开课 | 掌握云原生未来：CNCF 认证全面攻略与备考秘籍

国产云输入法——仅华为无云端数据上传安全问题

周排行

Python环境安装与基础语法（1）——计算机基础知识

IMU预积分

ADAS中的LDW、FCW、BSD、LCA、ACC、AEB、APA、DMS代表的含义

B站笔试两道题

skyeye arm 硬件虚拟机环境的搭建

Web前端静态页面示例

数组-合并排序数组 II-简单

springcloud之版本问题启动报错

面向对象-------------匿名对象(六)

输入URL到页面呈现中间发生了什么？

每日归档

更多

2024-04-30(1)

2024-04-29(40)

2024-04-28(0)

2024-04-27(56)

2024-04-26(39)

2024-04-25(22)

2024-04-24(36)

2024-04-23(26)

2024-04-22(39)

2024-04-21(0)