partitioner in Hadoop - 代码天地

partitioner in Hadoop

其他 2019-06-14 02:07:25 阅读次数: 0

partitioner用来控制map task的中间输出记录的所处的分组的。
partitioner的接口如下：

abstract int 	getPartition(KEY key, VALUE value, int numPartitions)

通常我们使用Record的key来计算分组的值，计算方法一般是hash。
分组的总数和reduce task的个数一样，如果reduce task的个数是1或者0，partitioner不会起作用。
partitioner发生在map task结束之后，reduce task开始之前。
Hadoop会保证分组相同的Record（key value pair）会被发送到同一个reduce task去执行。
这一条是重点：我们可以使用这一特点来完成一些我们自己的特殊需求。
例如：假设我们的key是int，希望key 范围在0~100的Record，分到一个reduce task，其他的分到另外一个reduce task上去。我们就可以实现下面的partitioner：

int getPartition(KEY key, VALUE value, int numPartitions) {
  if(key >= 0 && key <= 100) {
      return 0;
  }
  return 1;
}

需要注意的是，如果我们写的partitioner不好的话，会导致某个reduce task收到很多的record来处理，从而会导致整个job的执行时间加长。

再例如：我们想对很多的数据进行排序，这里就可以使用到InputSampler + TotalOrderPartitioner，具体的可参见下面的链接：
http://blog.ditullio.fr/2016/01/04/hadoop-basics-total-order-sorting-mapreduce/

猜你喜欢

转载自blog.csdn.net/lantianjialiang/article/details/82811859

partitioner in Hadoop

Hadoop Mapreduce 中的Partitioner

hadoop中Combiner和Partitioner

Partitioner

Hadoop利用Partitioner对输出文件分类

Hadoop7days -4 Partitioner

Hadoop学习笔记之Partitioner分区

Hadoop基础-Partitioner用法案例

Hadoop源码解析之Partitioner类

Hadoop MapReduce工作详细流程（Partitioner/SortComparator/GroupingComparator）

Hadoop深入学习：Partitioner组件的设计与实现

Hadoop中Combiner和Partitioner应用场景

Hadoop--MapReduce3--自定义Partitioner

Hadoop案例：Partitioner类控制文件输出个数

Hadoop：MapReduce之倒排索引（Combiner和Partitioner的使用）

hadoop学习：mapreduce入门案例四：partitioner 和 combiner

Hadoop MapReduce统计手机流量案例学习(结合Partitioner)

学习Hadoop第十四课（自定义分区Partitioner）

Hadoop详解 ----------- shuffle原理、partitioner分区原理、Combiner编程、常见的MR算法

Hadoop-MapReduce-Partitioner分区，WritableComparable全排序、区内排序、GroupingComparator分组排序，Combiner合并

Hadoop中的MapReduce框架原理、自定义Partitioner步骤、在Job驱动中，设置自定义Partitioner、Partition 分区案例

Partitioner 分区

mapreduce Partitioner

用户定制Partitioner

MapReduce之combiner及partitioner

MapRedece中的分区Partitioner

MapReduce 进阶：Partitioner 组件

Mapreduce的分区—Partitioner

MapReduce编程之Partitioner

Spark RDD之Partitioner

今日推荐

NetBSD 禁止提交由 AI 生成的代码

Apache Doris 2.0.10 版本正式发布！

开源日报 | 大模型开战；大模型独角兽被曝卖身；周鸿祎建议谷歌开源所有产品；最大开源AI社区提供1000万美元共享GPU

开源日报 | Chrome内置Gemini的意义不在于Gemini；中国AI追随之路的五大误区；ECharts创始人“下海”养鱼；谷歌I/O开发者大会什么都有，只是没有惊喜

微软回应中国区AI团队“打包赴美”传闻

基于大语言模型的开源知识库问答系统 MaxKB GitHub Star 数量突破 5,000 个！

周排行

static方法和非static方法的区别（java）

如何查找计算机专业paper

java.lang.ClassFormatError: Incompatible magic value 0 in class file com/sitecha

跳跃游戏II

stm32_之【建立工程】

TeaWeb v0.0.9 发布，统计底层优化、主机监控功能改进

事件分发 -----控制字体大小

JavaScript DOM练习（动态表格添加） December 25，2019

JSF Scope & CDI

实现从零搭建一个登录注册页面（附源代码）

每日归档

更多

2024-05-19(0)

2024-05-18(4)

2024-05-17(34)

2024-05-16(6)

2024-05-15(24)

2024-05-14(0)

2024-05-13(18)

2024-05-12(0)

2024-05-11(38)

2024-05-10(38)