Hadoop 入门笔记—核心组件 MapRuduce

作者：幻好

来源：恒生LIGHT云社区

MapReduce 是一个分布式运算程序的编程框架，通过它能将用户将编写好的程序提交，并发运行在一个 Hadoop 集群上。

MapReduce 核心功能是将用户编写的业务逻辑代码和自带默认组件整合成一个完整的分布式运算程序。

MapReduce 是一个编程模型，分为两个阶段：Map 和 Reduce。输入的数据会先分块，然后由 Map 进行处理，最后输出到 Reduce 中。

可以将它理解成对数据整理，然后归纳的一个过程。

MapReduce 的算法计划通常分三个步骤组成：

MapReduce 通常由以下几个步骤组成：

input : 读取系统中的文本文件；
splitting : 将文件按照行进行拆分，能得到的K1 行数，V1 表示对应行的文本内容；
mapping : 并行将每一行按照空格进行拆分，拆分得到的List(K2,V2)，其中K2 表示关键词，V2 的值为 1，代表出现 1 次；
shuffling：由于mapping 的操作可能在不同的机器上并行处理的，就得通过shuffling 操作将相同key 值的数据分发到同一个节点上去合并，这样才能统计出最终的结果，此时得到K2 为主键，List(V2) 为可迭代集合，V2 就是 Mapping 中的 V2；
Reducing : 对于每个工作节点上的K2 键值对进行Reduce() 操作，最终输出。

MapReduce 编程模型中 splitting 和 shuffing 操作都是由框架实现的，需要我们自己编程实现的只有 mapping 和 reducing，这也就是 MapReduce 这个称呼的来源。

扫描二维码关注公众号，回复： 13232729 查看本文章

MapReduce 最核心的还是将用户开发的程序，能够发到 Hadoop 上运行并执行，能够动态的去处理提交的任务，通过并行的方式减少计算时间，获取最终的计算结果。