Hadoop-MapReduce粗略理解（一） - 代码天地

Hadoop-MapReduce粗略理解（一）

其他 2018-05-20 15:45:54 阅读次数: 2

本文不做任何商业用途，仅仅用于知识分享。如有侵权行为，请联系我谢谢。

通过阅读书籍查阅相关资料总结得出

本人片面理解：

map 相当于数据准备阶段，主要负责从HDFS中读取分块，因为每个分块的大小近乎相等，所以通过集群调度任务将数据采集到map中。实现读取效率最大化

reduce。处理各个节点上map的值（利用网络传输）传输到reduce节点。由reduce 完成聚合，排序等一系列处理。最终写入hdfs中。

注意：集群上调度的每个tasktrigger 任务在处理map会遇到如下情况。

绝大部分处理都是箭头a，如果a走不通。会利用网络传输到其他map节点上继续准备数据，箭头b。箭头c的情况也有。不过几乎非常小。

如图：

数据准备好后就要交给 reduce来处理数据了。不过需要注意的是，map属于准备数据阶段。不会将数据存储到 hdfs中。如果在传输到 reduce时数据发生丢失，则会重新跑丢失的map传递给reduce。

流程图如下：

。

猜你喜欢

转载自blog.csdn.net/qq_18730505/article/details/80318707

Hadoop-MapReduce粗略理解（一）

Hadoop-Mapreduce(一）

Hadoop-MapReduce

hadoop-MapReduce概述

hadoop-MapReduce总结

Hadoop-Mapreduce(四）

Hadoop-Mapreduce(二）

Hadoop-Mapreduce(三）

Hadoop-mapreduce上路练习

Hadoop-MapReduce框架技术

Hadoop-MapReduce的工作原理

hadoop-Mapreduce实例WordCoun

Hadoop-MapReduce实战(WordCount)

Hadoop-MapReduce(多表合并)

Hadoop-MapReduce优化方法

hadoop-MapReduce处理流程（一）生活实例对比

Windows系统调试Hadoop-MapReduce程序问题（一）

hadoop-mapreduce中maptask运行分析

hadoop-mapreduce中reducetask运行分析

3.3 Hadoop-MapReduce，统计温度

3.2 Hadoop-MapReduce，统计词数

3.1 Hadoop-MapReduce编程逻辑

Hadoop-MapReduce计算案例1：WordCount

Hadoop-Mapreduce参数调优

Hadoop-MapReduce Shuffle原理及调优

Hadoop-MapReduce原理过程

大数据-hadoop-MapReduce计算流程

Hadoop-Mapreduce实战（两表join）

Hadoop-Mapreduce实战（日志清洗案例）

Hadoop-MapReduce执行的全过程

今日推荐

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

GCC 14.1 发布

面壁智能发布 Eurux-8x22B 开源大模型 —— 堪称「理科状元」

开源日报 | 谷歌扶持鸿蒙上位；开源Rabbit R1；Docker加持的安卓手机；微软的焦虑和野心；海尔电器把开放平台关了

中国码农的“35岁魔咒”

蘭雅 CorelDRAW 插件 2024.5.1 国际劳动节版，免费下载

Arc Browser for Windows 1.0 正式 GA

90后程序员开发视频搬运软件、不到一年获利超 700 万，结局很刑！

周排行

Java自定义时间格式

同步整形电路

在开发中最最最常用的字符串的属性大集合

Linux 查看端口占用并杀掉

Java基础四：ArrayList

多线程之死锁就是这么简单

mysql 基础命令集

awk 命令详解

Centos6.3编译安装nginx+php步骤

OCR （Optical Character Recognition，光学字符识别）

每日归档

更多

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)

2024-05-03(19)

2024-05-02(0)

2024-05-01(4)

2024-04-30(1)

2024-04-29(40)