2021-02-21 spark coalesce 算子 - 代码天地

2021-02-21 spark coalesce 算子

其他 2021-03-08 07:52:24 阅读次数: 0

算子功能：

减少分区数量，

应用场景：ABC 3个分区分别处理10w条原始数据，但是在处理的筛选的过程中，过滤掉了大部分的数据，此时的ABC3个分区的数据量只有1000条，那么此时还使用原始的3个分区去处理这1000条数据，消耗太多，即可使用coaliesce算子，减少分区的数量

代码如下：

package sparkcore.day01

import org.apache.spark.{SparkConf, SparkContext}

object demo01_coalesc {

def main(args: Array[String]): Unit = {

System.setProperty("hadoop.home.dir", "D:\\spark")

val conf = new SparkConf().setAppName("spakrcore").setMaster("local[*]")

val sc = new SparkContext(conf)

val mkRDD = sc.makeRDD(List(1,2,3,4,5,6),2)

val unit = mkRDD.coalesce(2).saveAsTextFile("output")

sc.stop()

注意：coalesce 算法默认是不会打乱分区的数据，所以不会重新组合数据，仅仅是缩减了分区，如果想要进行shuffle，将第二个参数设置为true，

1、默认不进程shuffle 打乱数据的操作

object demo01_coalesc_02 {

def main(args: Array[String]): Unit = {

Logger.getLogger("org").setLevel(Level.ERROR)

System.setProperty("hadoop.home.dir", "D:\\spark")

val conf = new SparkConf().setAppName("spakrcore").setMaster("local[*]")

val sc = new SparkContext(conf)

val mkRDD = sc.makeRDD(List(1,2,3,4,5,6),3)

val unit = mkRDD.coalesce(2).saveAsTextFile("output")

sc.stop()

分区内的数据分别是

分区1：

1 2

分区2:

3 4 5 6

1、将coalesce 设置为进程shuffle 打乱数据的操作

分区1数据：

分区2数据：

数据并没有按照1 2 3 在分区1 4 5 6在分区2 ，是因为在coalesce设置shuffle为true的时候，会重新的打乱数据，并且重新将打乱的数据分配到2个分区中

猜你喜欢

转载自blog.csdn.net/weixin_38638777/article/details/113925857

2021-02-21 spark coalesce 算子

spark的coalesce和repartition算子管理分区

Spark transformation算子之coalesce&&repartition

spark算子调优三：filter与coalesce的配合使用

从coalesce算子发散开的

spark中的算子（ mapPartitionsWithIndex ，coalesce，zipWithIndex，zip，countByKey，countByValue，reduce等）【Scala】

【菜鸟系列】spark常用算子总结（java）--union,intersection,coalesce,repartition,cartesian,distinct

Spark(二十四）算子调优之filter过后使用coalesce减少分区数量

2021-02-21

spark reparation和coalesce

spark 大型项目实战(三十九): 算子调优之filter过后使用coalesce减少分区数量

spark算子

【Spark】算子

spark 算子

重新分区算子coalesce和repartition

spark01-算子练习02

[Spark基础]--repartition vs coalesce

Spark:DataFrame repartition、coalesce 对比

Spark基础 repartition vs coalesce

Spark性能优化-coalesce(n)

spark算子详解------spark算子分类

Spark RDD 之 repartition/coalesce 源码浅谈

Spark学习-Coalesce()方法和rePartition()方法

Spark部分：重新分区（repartition和coalesce）

Spark中repartition和coalesce的用法

Spark源码系列:RDD repartition、coalesce 对比

Spark repartition与coalesce对分区的操作

Spark RDD中repartition和coalesce的区别

COALESCE

Spark_Spark算子_repartitionAndSortWithinPartitions

今日推荐

周排行

业生平均薪酬在涨国企起薪四千是民企2倍

将16进制转化为字符串

leetcode每日刷题计划--day59

已知两个线性升序表LA，LB，然后合并两个表为LC，并保持升序

新闻网大数据实时分析可视化系统项目——5、Hadoop2.X HA架构与部署

通过Spring ApplicationListener监听器触发事件

Toad for oracle 使用笔记

Hibernate3.2 断网之后报无法解析hibernate.cfg.xml错误

AcWing 282 石子合并

mongod的备份与恢复

每日归档

更多

2025-04-05(0)

2025-04-04(0)

2025-04-03(0)

2025-04-02(0)

2025-04-01(0)

2025-03-31(0)

2025-03-30(0)

2025-03-29(0)

2025-03-28(0)

2025-03-27(0)