Hadoop深入学习:ReduceTask详解

        本节我们来着重学习ReduceTask的内部操作流程和实现。
        我们先看一下ReduceTask操作流程:

        从流程图中我们可以看出,ReduceTask分5个阶段:
        Copy阶段
        Merge阶段
        Sort阶段
        Reduce阶段
        Write阶段
        其中的Copy阶段和Merge阶段是并行进行的。默认情况下ReduceTask同时启动5个MapOutputCopier线程从各个Mapper端的中间数据结果copy数据,放大小超过一定阀值后,则存放到磁盘上,否则直接放到内存中。
        为了防止内存或磁盘上的文件数据太多,ReduceTask会启动后台线程分别对内存和磁盘上的数据文件进行合并操作。
        当数据copy完后,还要经过Sort排序阶段对所有数据按key进行排序操作,将相同的key对应的value汇聚到一起,然后交给reduce()方法处理。
        经过reduce()方法对数据进行处理后,然后将数据写到HDFS上。

猜你喜欢

转载自flyingdutchman.iteye.com/blog/1878887