combineByKey的使用 - 代码天地

combineByKey的使用

其他 2021-03-28 22:32:28 阅读次数: 0

说明

对RDD中的数据进行初始化后进行分区内和分区间的合并。

函数签名

在这里插入图片描述

createCombiner：对数据进行初始化，并将数据作为参数，可以对数据进行转换操作，分区内每种key调用一次。
mergeValue：分区内合并，将key相同的元素V合并到刚刚经过转换的C上。
mergeCombiners：分区间合并，将key相同的两个C合为一个C。

执行过程

在这里插入图片描述

代码示例

	val conf: SparkConf = new SparkConf().setAppName(this.getClass.getName).setMaster("local[*]")
    val sc = new SparkContext(conf)
    val rdd: RDD[(String, Int)] = sc.makeRDD(List(("a", 88), ("b", 95), ("a", 91),
      ("b", 93), ("a", 95), ("b", 98)), 2)
    // 求均值
    val combineRDD: RDD[(String, (Int, Int))] = rdd.combineByKey(
      // 将value和1配对组成元组
      (_, 1),
      // 将其他的value和上面的元组合并
      // 必须显示声明C的类型，无法自动推断
      (tup1: (Int, Int), value) => {
    
    
        // 分数合并，总数+1
        (tup1._1 + value, tup1._2 + 1)
      },
      (tup2: (Int, Int), tup3: (Int, Int)) => {
    
    
        (tup2._1 + tup3._1, tup2._2 + tup3._2)
      }
    )
    val resRDD: RDD[(String, Int)] = combineRDD.map {
    
    
      case (key, datas) => {
    
    
        (key, datas._1 / datas._2)
      }
    }


    resRDD.collect().foreach(println)

    sc.stop()

猜你喜欢

转载自blog.csdn.net/FlatTiger/article/details/115054337

combineByKey的使用

spark combineByKey的使用

CombineByKey

spark combineByKey

pyspark rdd的combineByKey的高级API使用方法，多行按某列合为一行

Operator_combineByKey

SparkRDD之combineByKey

RDDs之combineByKey()

Spark API 之combineByKey

reduceByKey、groupByKey和combineByKey

RDD操作combineByKey、foldByKey

pyspark combineByKey的理解

spark的combineByKey算子原理详解

scala combineByKey用法说明

Spark算子篇-combineByKey实战

java实现spark算子combineByKey

spark中的combineByKey函数的用法

reduceByKey、groupByKey以及combineByKey的区别

Spark高级函数应用【combineByKey】

Spark编程：combineByKey与aggregateByKey异同

【Spark九十六】RDD API之combineByKey

Scala中高级算子，combineByKey

4 spark入门键值对聚合操作combineByKey

Spark核心RDD：combineByKey函数详解

sparkRDD高级算子 combineByKey函数详解

RDD算子源码《二》基于combineByKey()的算子

讲明白combineByKey()算子，不是谈源码

【SparkAPI JAVA版】JavaPairRDD——combineByKey（九）

Spark入门（六）--Spark的combineByKey、sortBykey

Spark中combineByKey算子详解介绍

今日推荐

技术解析 GPT-4o：即时语音交互的突破与 GenAI 发展策略

开源大模型与闭源大模型

微信小程序授权登录获取用户的openid

亿级流量系统架构设计与实战

人工智能时代的程序设计教学与课程设计

纽交所技术问题致伯克希尔 (BRK.A) 显示跌近 100%

周排行

《Python 编程-从入门到实践》11-1~11-3

关于Numpy+TensorFlow+PyTorch构造NN的总结

【原创达人】制作WINPE启动盘心得

英文图片文字识别（提取）

2022cma看片网站给一个你懂的

二叉搜索树的实现（BST）（插入+删除+查找+各种遍历+高度）

搬家通知博文地址(将博客搬到CSDN)

asfd

解决错误：MISCONF Redis is configured to save RDB snapshots, but is currently not able to persist on disk

如何注册微信个人小程序

每日归档

更多

2024-06-08(0)

2024-06-07(0)

2024-06-06(0)

2024-06-05(0)

2024-06-04(10)

2024-06-03(52)

2024-06-02(4)

2024-06-01(60)

2024-05-31(47)

2024-05-30(4)