Hadoop MapReduce体系概述

MapReduce是一种并行编程模式,这种模式使得软件开发者可以轻松的编写分布式并行程序。在Hadoop的体系结构中,MapReduce是一个简单易用的软件框架,基于它可以将任务分配到大量的机器集群上,并提供一种高容错的方式并行处理大量的数据集,实现Hadoop的并行任务处理。

在早期的MapReduce框架中,主要由一个单独运行在主节点的JobTracker进程和运行在每个集群从节点上的TaskTracker进程共同组成,主节点JobTracker负责调度构成一个作业的所有任务,这些任务分布在不同的从节点TaskTracker上

主节点通过心跳机制(心跳,主从节点的通信时间间隔)监控它们的执行情况,并重新执行之前失败的任务;从节点负责由主节点指派任务。当一个Job被Client提交侯,JobTracker接收到提交作业和配置信息侯,就会将配置信息等分发给从节点,同时调度任务并监控TaskTracker的执行。

猜你喜欢

转载自blog.csdn.net/qq_33369979/article/details/87884995