Hadoop 的核心（2）—— MapReduce & YARN

其他 2020-02-14 12:18:44 阅读次数: 0

MapReduce 简介

MapReduce 是一种编程模型，是一种编程方法，是抽象的理论。

YARN 概念

YARN 是 Hadoop 2.0 版本以后的资源管理器，即 MapReduce 2.0，相比于 1.0 版本，架构中的各个模块分工明确，在性能和稳定性上都有所提升。YARN 负责整个集群资源的管理和调度，也就是说所有的 MapReduce 都需要通过它来进行调度，支持多种计算框架。

YARN 的几个概念：

ResourceManager
ApplicationMaster
NodeManager

1、ResourceManager

负责接受客户端提交的 job，分配和调度资源
启动 ApplicationMaster，判断 job 所需资源
监控 ApplicationMaster，在其失败的时候进行重启
监控 NodeManager

2、ApplicationMaster

为 MapReduce 类型的程序申请资源，并分配任务
负责相关数据的切分
监控任务的执行及容错

3、NodeManager

管理单个节点的资源，向 ResourceManager 进行汇报
接收并处理来自 ResourceManager 的命令
接收并处理来自 ApplicationMaster 的命令

MapReduce 编程模型

场景：输入一个大型文件，通过 split 将其分成多个文件分片
Map：每个文件分片由单独的机器进行处理，这就是 Map 方法
Reduce：将各个机器的计算结果进行汇总，得到最终的结果，这就是 Reduce 方法

Map 任务处理

读取输入文件的内容，解析成键值对，把文件的每一行解析成键值对，每个键值对调用一次 map 函数；(Input)
写自定义的逻辑，对输入的键值对进行处理，转换成新的键值对输出；(Map)
对不同分区的数据，按照键（key）进行排序和分组，key 相同的值（value）放到一个集合中；(Sort -> Combine)
把输出的键值对（此时只是中间结果）按照 key 的范围进行分区处理；(Partition)
分组后的数据进行 reduce 处理。

Reduce 任务处理

对多个 map 任务的输出，按照不同分区，通过网络 copy 到不同的 reduce 节点；
对多个 map 任务的输出进行合并和排序，自定义 reduce 函数的逻辑，对输入的键（key）和值（value）进行处理，转换成新的键值对输出；(Reduce)
把 reduce 的输出保存到文件中。(Output)

MapReduce 的整个工作流程可以归结为：

Input -> Map -> Sort -> Combine -> Partition -> Reduce -> Output

欢迎关注我的知乎专栏【数据池塘】，专注于分享机器学习、数据挖掘干货：https://zhuanlan.zhihu.com/datapool

⬇️ 微信公众号 ⬇️

王大鱼

发布了38 篇原创文章 · 获赞 23 · 访问量 7万+

私信关注

猜你喜欢

转载自blog.csdn.net/cyan_soul/article/details/79212649

Hadoop 的核心（2）—— MapReduce & YARN

Hadoop-MapReduce+Yarn核心原理

Hadoop HDFS, YARN ,MAPREDUCE,MAPREDUCE ON YARN

Hadoop核心架构体系（HDFS+MapReduce+Hbase+Hive+Yarn）

Hadoop核心组件的MapReduce和Yarn的安装与配置(三)

hadoop学习记（2）--HDFS+yarn+MapReduce关系与原理

hadoop备战：yarn框架的搭建（mapreduce2）

hadoop备战：yarn框架的简单介绍（mapreduce2）

Hadoop MapReduce和Yarn的关系

Hadoop基于Yarn的MapReduce架构

Hadoop MapReduce2.0（Yarn）

Hadoop(HDFS、MapReduce、Yarn)总结

Hadoop V2 yarn与Hadoop V1 MapReduce对比

Hadoop 新 MapReduce 框架 Yarn 详解

Hadoop 新 MapReduce 框架 Yarn 详解（转载）

Hadoop、MapReduce、YARN和Spark的区别与联系

Hadoop2.7.6_05_mapreduce-Yarn

Hadoop，MapReduce，YARN和Spark的区别与联系

hadoop之MapReduce架构及Yarn环境搭建

Hadoop之旅（4）— MapReduce 与 YARN 原理讲解

Hadoop/Yarn/MapReduce内存分配（配置）方案

hadoop MapReduce Yarn运行机制

Hadoop - HDFS - MapReduce - YARN - HA详解

Hadoop YARN上运行MapReduce程序

hadoop生态之mapReduce-Yarn

Hadoop下的HDFS和Yarn上的MapReduce

整合Hadoop(包括:hdfs,mapreduce,yarn)

Hadoop之 MapReduce （Yarn资源调度器）

Hadoop关于HDFS、MapReduce、Yarn的总结

2020.9.14(hadoop-MapReduce-yarn集群的搭建)

今日推荐

基于大语言模型的开源知识库问答系统 MaxKB GitHub Star 数量突破 5,000 个！

美国拟限制 AI 大模型出口中国和俄罗斯

苹果将与 OpenAI 达成协议，将 ChatGPT 应用于 iPhone

openKylin 社区生态委员会第六次会议圆满召开

阿里云正式发布通义千问 2.5

Python 3.13 发布首个 Beta：实验性自由线程模式和 JIT、改进交互式解释器

Stack Overflow 拿我的代码去训练 AI 大模型，还封了我的账号

Pop!_OS 的 COSMIC 桌面完成 App Store 上架工作

《2024 年一季度互联网投融资运行情况》研究报告

报告：Django 仍然是 74% 开发者的首选

15 年前上了“FFmpeg 耻辱柱”，今天他还得谢谢咱——腾讯QQPlayer一雪前耻？

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

周排行

记一下去大梅沙的准备（2018-05-26）

Spring 注解事务

基于HTTP协议的客户端缓存

阿里云rds 备份和还原

[PHP] 几个拖慢 PHP 程序/API 运行速度的点

python 代码风格------------PEP8规则

js控制json生成菜单——自制菜单（一）

将字符串: 'k:1|k1:2|k2:3|k3:4 ' ,处理成 python 字典: {'k':1, 'k1':2, ...}

微信小程序转支付宝小程序

Qt551.窗口滚动条

每日归档

更多

2024-05-13(18)

2024-05-12(0)

2024-05-11(38)

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)