Hadoop Mapreduce 中的Partitioner

Partitioner的作用的对Mapper产生的中间结果进行分片，以便将同一分组的数据交给同一个Reduce处理，Partitioner直接影响Reduce阶段的负载均衡。

MapReduce提供了两个Partitioner实现：HashPartitioner和TotalOederPartitioner。
HashPartitioner是默认实现，实现了一种基于哈希值的分片方法，代码如下：

public int getPartition(K2 key, V2 value, int numReduceTasks) {
     return (key.hashCode() & Integer.MAX_VALUE) % numReduceTasks;
}

TotalOrderPartitioner提供了一种基于区间的分片方法，通常用在数据全排序中。
在MapReduce环境中，容易想到的全排序方案是归并排序，即在Map阶段，每个Map Task进行局部排序；在Reduce阶段，启动一个Reduce Task进行全局排序。由于作业只能有一个Reduce Task，因而reduce阶段会成为作业的瓶颈。
TotalOrderPartitioner能够按照大小将数据分成若干个区间（分片），并保证后一个区间的所有数据均大于前一个区间的所有数据。全排序的步骤如下：

数据采样。在Client端通过采样获取分片的分割点。Hadoop自带了几个采样算法，如IntercalSampler、RandomSampler、SplitSampler等。
Map阶段。本阶段涉及两个组件，分别是Mapper和Partitioner。其中，Mapper可采用IdentityMapper，直接将输入数据输出，但Partitioner必须选用TotalOrderPartitioner，它将步骤1中获取的分割点保存到trie树中以便快速定位任意一个记录所在的区间，这样，每个Map Task产生R（Reduce Task 个数）个区间，且区间有序。TotalOrderPartitioner通过trie树查找每条记录所对应的Reduce Task编号。
Reduce阶段。每个Reducer对分配到的区间数据进行局部排序，最终得到全排序数据。

基于TotalOrderPartitioner全排序的效率跟key分布规律和采样算法有直接关系；key值分布越均匀且采样越具有代表性，则Reduce Task负载越均衡，全排序效率越高。

Hadoop Mapreduce 中的Partitioner

猜你喜欢