3.2 Spark RDD 基本转换操作2-分区：coalesce、repartition - 代码天地

3.2 Spark RDD 基本转换操作2-分区：coalesce、repartition

其他 2019-03-17 04:50:55 阅读次数: 0

版权声明：本文为博主原创文章，未经博主允许不得转载。 https://blog.csdn.net/yyl424525/article/details/78370754

1 coalesce
def coalesce(numPartitions: Int, shuffle: Boolean = false)(implicit ord: Ordering[T] = null): RDD[T]
该函数用于将RDD进行重分区，使用HashPartitioner。
第一个参数为重分区的数目，第二个为是否进行shuffle，默认为false;
如果重分区的数目大于原来的分区数，那么必须指定shuffle参数为true，否则，分区数不变
以下面的例子来看：
scala> var data = sc.textFile(“/usr/local/rddTest.txt”)
data: org.apache.spark.rdd.RDD[String] = MapPartitionsRDD[53] at textFile at :21

scala> data.collect
res37: Array[String] = Array(hello world, hello spark, hello hive, hi spark)

scala> data.partitions.size
res38: Int = 1 //RDD data默认有1个分区

scala> var rdd1 = data.coalesce(4)
rdd1: org.apache.spark.rdd.RDD[String] = CoalescedRDD[3] at coalesce at :23

scala> rdd1.partitions.size
res2: Int = 1 //如果重分区的数目大于原来的分区数，那么必须指定shuffle参数为true，//否则，分区数不变

scala> var rdd1 = data.coalesce(4,true)
rdd1: org.apache.spark.rdd.RDD[String] = MapPartitionsRDD[7] at coalesce at :23

scala> rdd1.partitions.size
res3: Int = 4

2 repartition
def repartition(numPartitions: Int)(implicit ord: Ordering[T] = null): RDD[T]
该函数其实就是coalesce函数第二个参数为true的实现
例子：
scala> var rdd2 = data.repartition(1)
rdd2: org.apache.spark.rdd.RDD[String] = MapPartitionsRDD[11] at repartition at :23

scala> rdd2.partitions.size
res4: Int = 1

scala> var rdd2 = data.repartition(4)
rdd2: org.apache.spark.rdd.RDD[String] = MapPartitionsRDD[15] at repartition at :23

scala> rdd2.partitions.size
res5: Int = 4

猜你喜欢

转载自blog.csdn.net/yyl424525/article/details/78370754

3.2 Spark RDD 基本转换操作2-分区：coalesce、repartition

3.2 Spark RDD 基本转换操作5-mapPartitions、mapPartitionsWithIndex

3.2 Spark RDD 基本转换操作3-randomSplit、glom

3.2 Spark RDD 基本转换操作4-集合：union、intersection、subtract

3.2 Spark RDD 基本转换操作6-zip、zipPartitions 、zipWithIndex、zipWithUniqueId

3.2 Spark RDD 基本转换操作1-map、flatMap、distinct

RDD基本转换coalesce、repartition

Spark RDD 之 repartition/coalesce 源码浅谈

Spark源码系列:RDD repartition、coalesce 对比

Spark RDD中repartition和coalesce的区别

[Spark] RDD的基本操作

spark Rdd的默认分区

【SPARK】- RDD分区

【spark】RDD分区解析

【Spark】RDD分区

Spark的RDD分区器

Spark RDD分区

【spark】RDD操作

Spark 键值对RDD操作

Spark RDD操作总结

Spark——RDD操作详解

Spark RDD操作

Spark RDD的Transformation操作

【SPARK】- RDD操作

Spark RDD基础操作

Spark RDD创建操作

Spark RDD简单操作

Spark RDD Action操作

spark 之RDD操作

Spark RDD编程(2)

今日推荐

探索 api.maynor1024.live：一站式 AI 服务平台

AI一键去衣技术：窥见深度学习在图像处理领域的革命(最后有彩蛋)

艾体宝案例 | 使用Redis和Spring Ai构建rag应用程序

Apple M1 vs 高通8Gen2 vs Apple A12Z各方面比较

【升职加薪必备架构图】Springboot学习路线汇总_springboot四层架构流程图

与Apollo共创生态：Apollo7周年大会自动驾驶生态利剑出鞘

Spring Boot 3.0：未来企业应用开发的基石

Java 的 AI 前景光明

国内首个智能体生态大会！2024百度万象大会定档5月30日

开源一周年，青语言新版发布

深入浅出：大型语言模型（LLM）的全面解读

顶会ICLR2024论文Time-LLM：基于大语言模型的时间序列预测

周排行

学习笔记(01):Python入门教程-计算机如何区分数字和字符

命令行提示符_颜色

五步轻松搞定Linux下的文件同步(备份)

Visio 2010，如何打开多个窗口

西安新起点|MBA考研十大热门城市

BiSeNet: Bilateral Segmentation Network for Real-time Semantic Segmentation

【蓝桥杯】ADV-73 数组输出

[DeeplearningAI笔记]卷积神经网络4.11一维和三维卷积

Java 逻辑运算符

Python爬虫入门——2. 5 利用正则表达式爬取豆瓣电影 Top 250

每日归档

更多

2024-06-01(60)

2024-05-31(47)

2024-05-30(4)

2024-05-29(65)

2024-05-28(2)

2024-05-27(56)

2024-05-26(6)

2024-05-25(68)

2024-05-24(65)

2024-05-23(9)