2021-02-21 spark coalesce 算子 - 代码天地

2021-02-21 spark coalesce 算子

其他 2021-03-08 07:52:24 阅读次数: 0

算子功能：

减少分区数量，

应用场景：ABC 3个分区分别处理10w条原始数据，但是在处理的筛选的过程中，过滤掉了大部分的数据，此时的ABC3个分区的数据量只有1000条，那么此时还使用原始的3个分区去处理这1000条数据，消耗太多，即可使用coaliesce算子，减少分区的数量

代码如下：

package sparkcore.day01

import org.apache.spark.{SparkConf, SparkContext}

object demo01_coalesc {

def main(args: Array[String]): Unit = {

System.setProperty("hadoop.home.dir", "D:\\spark")

val conf = new SparkConf().setAppName("spakrcore").setMaster("local[*]")

val sc = new SparkContext(conf)

val mkRDD = sc.makeRDD(List(1,2,3,4,5,6),2)

val unit = mkRDD.coalesce(2).saveAsTextFile("output")

sc.stop()

注意：coalesce 算法默认是不会打乱分区的数据，所以不会重新组合数据，仅仅是缩减了分区，如果想要进行shuffle，将第二个参数设置为true，

1、默认不进程shuffle 打乱数据的操作

object demo01_coalesc_02 {

def main(args: Array[String]): Unit = {

Logger.getLogger("org").setLevel(Level.ERROR)

System.setProperty("hadoop.home.dir", "D:\\spark")

val conf = new SparkConf().setAppName("spakrcore").setMaster("local[*]")

val sc = new SparkContext(conf)

val mkRDD = sc.makeRDD(List(1,2,3,4,5,6),3)

val unit = mkRDD.coalesce(2).saveAsTextFile("output")

sc.stop()

分区内的数据分别是

分区1：

1 2

分区2:

3 4 5 6

1、将coalesce 设置为进程shuffle 打乱数据的操作

分区1数据：

分区2数据：

数据并没有按照1 2 3 在分区1 4 5 6在分区2 ，是因为在coalesce设置shuffle为true的时候，会重新的打乱数据，并且重新将打乱的数据分配到2个分区中

猜你喜欢

转载自blog.csdn.net/weixin_38638777/article/details/113925857

2021-02-21 spark coalesce 算子

spark的coalesce和repartition算子管理分区

Spark transformation算子之coalesce&&repartition

spark算子调优三：filter与coalesce的配合使用

从coalesce算子发散开的

spark中的算子（ mapPartitionsWithIndex ，coalesce，zipWithIndex，zip，countByKey，countByValue，reduce等）【Scala】

【菜鸟系列】spark常用算子总结（java）--union,intersection,coalesce,repartition,cartesian,distinct

Spark(二十四）算子调优之filter过后使用coalesce减少分区数量

2021-02-21

spark reparation和coalesce

spark 大型项目实战(三十九): 算子调优之filter过后使用coalesce减少分区数量

spark算子

【Spark】算子

spark 算子

重新分区算子coalesce和repartition

spark01-算子练习02

[Spark基础]--repartition vs coalesce

Spark:DataFrame repartition、coalesce 对比

Spark基础 repartition vs coalesce

Spark性能优化-coalesce(n)

spark算子详解------spark算子分类

Spark RDD 之 repartition/coalesce 源码浅谈

Spark学习-Coalesce()方法和rePartition()方法

Spark部分：重新分区（repartition和coalesce）

Spark中repartition和coalesce的用法

Spark源码系列:RDD repartition、coalesce 对比

Spark repartition与coalesce对分区的操作

Spark RDD中repartition和coalesce的区别

COALESCE

Spark_Spark算子_repartitionAndSortWithinPartitions

今日推荐

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

GCC 14.1 发布

面壁智能发布 Eurux-8x22B 开源大模型 —— 堪称「理科状元」

开源日报 | 谷歌扶持鸿蒙上位；开源Rabbit R1；Docker加持的安卓手机；微软的焦虑和野心；海尔电器把开放平台关了

中国码农的“35岁魔咒”

蘭雅 CorelDRAW 插件 2024.5.1 国际劳动节版，免费下载

Arc Browser for Windows 1.0 正式 GA

90后程序员开发视频搬运软件、不到一年获利超 700 万，结局很刑！

周排行

Java自定义时间格式

同步整形电路

在开发中最最最常用的字符串的属性大集合

Linux 查看端口占用并杀掉

Java基础四：ArrayList

多线程之死锁就是这么简单

mysql 基础命令集

awk 命令详解

Centos6.3编译安装nginx+php步骤

OCR （Optical Character Recognition，光学字符识别）

每日归档

更多

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)

2024-05-03(19)

2024-05-02(0)

2024-05-01(4)

2024-04-30(1)

2024-04-29(40)