Spark中的groupByKey,reduceByKey,combineBykey,和aggregateByKey的比较和区别 - 代码天地

Spark中的groupByKey,reduceByKey,combineBykey,和aggregateByKey的比较和区别

其他 2019-04-15 19:10:53 阅读次数: 0

groupByKey 按照key进行分组，得到相同key的值的sequence，可以通过自定义partitioner，完成分区，默认情况下使用的是HashPartitioner,分组后的元素的顺序不能保证，可能每一次的执行得到的结果都不相同。所有的数据需要进行shuffler,消耗资源。key-value键值对需要加载到内存中，若某个key有太多的value，可能发生OutOfMemoryError。

def groupByKey(partitioner:Partitioner) :RDD[(K,Iterable[V])]

def groupByKey(numPartitions:Int):RDD[(K,Iterable[V])]

2. reduceByKey 与groupByKey相比，通过使用local combiner先做一次聚合运算，减少数据的shuffler，此过程和Hadoop MapReduce中的combiner作用相似。有三种方式调用：

def reduceByKey(partitioner:Partitioner,func:(V,V)=>V):RDD[(K,V)] 可以自定义partitioner,默认情况下是Hash Partitioner

def reduceByKey(func:(V,V)=>V,numPartitions:Int):RDD[(K,V)]

def reduceByKey(func:(V,V)=>V):RDD[(K,V)]

3.aggregateByKey 和reduceByKey类似，但更具灵活性，可以自定义在分区内和分区间的聚合操作，有三种调用方式：

def aggregateByKey[U:ClassTag](zeroValue:U,partitioner:Partitioner)（seqOp:(U,V)=>U,comb:(U,U)=>U）:RDD[K,U]

seqOp:(U,V)=>U 和zeroValue 完成分区内计算，分区间计算通过comb:(U,U)=>U完成。

def aggregateByKey[U:ClassTag](zeroValue:U,numPartitions:Int)（seqOp:(U,V)=>U,comb:(U,U)=>U）:RDD[K,U]

def aggregateByKey[U:ClassTag](zeroValue:U)（seqOp:(U,V)=>U,comb:(U,U)=>U）:RDD[K,U]

4.combineByKey 与aggregateByKey类似，都调用了combineByKeyWithClassTag,在aggregateByKey中的

第一个参数是zero value,此函数的第一个参数需要提供一个初始化函数，通过第一个函数完成分区内计算，通过第二个函数完成分区间计算：

createCombiner:V=>C turns V to C ，C is an element list;

mergeValue:(C,V)=>C merge V to C by appending V to the end of the list.

mergeCombiners:(C,C)=>C to combine two Cs into one.

def combineByKey[C](createCombiner:V=>C,mergeValue:(C,V)=>C,mergeCombiners:(C,C)=>C,numPartitions:Int):RDD[(K,C)]

def combineByKey[C](createCombiner:V=>C,mergeValue:(C,V)=>C,mergeCombiners:(C,C)=>C,partitioner:Partitioner,mapSideCombine:Boolean = true,serializer:Serializer = null):RDD[(K,C)]

猜你喜欢

转载自blog.csdn.net/sperospera/article/details/89164261

Spark中的groupByKey,reduceByKey,combineBykey,和aggregateByKey的比较和区别

【spark】二 reduceByKey、reduceByKeyLocally、groupByKey、combineByKey、aggregateByKey 区别 [待补充]

reduceByKey、groupByKey和combineByKey

【转载】Spark中:reduceByKey和groupByKey区别与用法

groupByKey 和reduceByKey 的区别：

reduceByKey和groupByKey的区别

reduceByKey、groupByKey以及combineByKey的区别

GroupBykey 和ReduceBykey 的效率比较

Spark | reduceByKey 和 groupByKey 对比

reduceByKey和groupByKey区别与用法

转载-reduceByKey和groupByKey的区别

(二)常用Shuffle类算子：groupByKey、reduceByKey、aggregateByKey 和 sortByKey

关于spark当中的reducebykey 和groupbykey两者的区别

【Spark系列2】reduceByKey和groupByKey区别与用法

spark:reducebykey与groupbykey的区别

spark(十)RDD的groupByKey和reduceByKey实现

Spark算子groupbykey与reducebykey区别

Spark 中 GroupByKey 相对于 combineByKey, reduceByKey, foldByKey 的优缺点

Key-Value类型RDD转换算子1——partitionBy、groupByKey & reduceByKey、aggregateByKey & foldByKey & combineByKey

【Spark】Spark groupByKey，reduceByKey，sortByKey 算子比较

spark中reduce和reduceByKey的区别

reduceByKey和groupByKey性能上差异比较大

32、reduceByKey和groupByKey对比

spark 算子之 reduceByKey与groupByKey的区别

Spark学习笔记 --- ReduceByKey与GroupByKey的区别

spark reduceByKey和reduce区别

Spark之reduceByKey与GroupByKey

Spark中reduce和reducebykey

Spark部分：调优【reduceByKey/aggregateByKey替代groupByKey，mapPartitions替代普通map，foreachPartitions替代foreach】

groupByKey与reduceByKey区别

今日推荐

Linus “吃狗粮”最积极！

开源日报 | Winamp播放器即将开源；生成式AI之战升级第二轮；Linus“吃狗粮”最积极；AI进入泡沫前期；吴泳铭为阿里云带来了什么？

NetBSD 禁止提交由 AI 生成的代码

Apache Doris 2.0.10 版本正式发布！

开源日报 | 大模型开战；大模型独角兽被曝卖身；周鸿祎建议谷歌开源所有产品；最大开源AI社区提供1000万美元共享GPU

开源日报 | Chrome内置Gemini的意义不在于Gemini；中国AI追随之路的五大误区；ECharts创始人“下海”养鱼；谷歌I/O开发者大会什么都有，只是没有惊喜

微软回应中国区AI团队“打包赴美”传闻

周排行

LogN级别的区间查询算法(线段树), 你学会了吗

数论概论(英文版.第4版)

idea 更新后和新的直接安装前，都需要配置 idea64.exe.vmoptions 后再使用

CANOpen系列教程04_CAN总线波特率、位时序、帧类型及格式说明

Java序列化基础

java排序算法整理

异常：org.apache.ibatis.reflection.ReflectionException

（算法练习）——二路归并排序

go 闭包函数

好程序员web前端技术分享媒体查询

每日归档

更多

2024-05-21(8)

2024-05-20(36)

2024-05-19(0)

2024-05-18(4)

2024-05-17(34)

2024-05-16(6)

2024-05-15(24)

2024-05-14(0)

2024-05-13(18)

2024-05-12(0)