Spark常规性能调优二：RDD优化 - 代码天地

Spark常规性能调优二：RDD优化

其他 2021-03-26 05:46:45 阅读次数: 0

1.RDD复用

在对RDD进行算子时，要避免相同的算子和计算逻辑之下对RDD进行重复的计算

对图中的架构进行修改就会得到以下的优化结果

2.RDD持久化

在Spark中，当多次对同一个RDD执行算子操作时，每一次都会对这个RDD的父RDD重新计算一次，这种情况是要避免的，对同一个RDD进行重复计算是对资源的极大浪费，因此，必须对多次使用的RDD进行持久化，通过持久化将公共的RDD数据缓存到磁盘/内存中，之后对于公共RDD的计算都会直接获取。

对于RDD的持久化，有两点需要说明

第一，RDD的持久化是可以进行序列化的，当内存无法将RDD的数据完整的进行存放的时候，可以考虑使用序列化的方式减小数据体积，将数据完整存储在内存中。

第二，如果对于数据的可靠性要求很高，并且内存充足，可以使用副本机制，对RDD数据进行持久化。当持久化启用了复本机制时，对于持久化的每个数据单元都存储一个副本，放在其他节点上面，由此实现数据的容错，一旦一个副本数据丢失，不需要重新计算，还可以使用另外一个副本。

3.RDD尽可能早的filter操作

获取到初始RDD后，应该考虑尽早地过滤掉不需要的数据，进而减少对内存的占用，从而提升Spark作业的运行效率。

猜你喜欢

转载自blog.csdn.net/weixin_43233971/article/details/109290299

Spark常规性能调优二：RDD优化

Spark性能优化 (1) | 常规性能调优

Spark 常规性能调优

Spark常规性能调优

Spark性能调优之常规性能调优（一）

spark性能调优-rdd重构和rdd持久化

Spark性能优化指南（二）（资源调优）

Spark性能优化篇二：开发调优

Spark 性能调优与故障处理之(1)Spark常规性能调优

Spark常规性能调优三：并行度调节

Spark常规性能调优一：最优资源配置

spark性能调优之RDD缓存模型

Spark性能优化：数据倾斜调优

Spark性能优化：shuffle调优

Spark性能优化：资源调优篇

Spark性能优化：开发调优篇

spark性能优化-数据倾斜调优

Spark性能优化之shuffle调优

Spark性能优化之资源调优

Spark性能优化之开发调优

四、Spark性能优化：shuffle调优

Spark性能优化 (4) | JVM 调优

Spark性能优化 (2) | 算子调优

Spark性能优化 (3) | Shuffle 调优

spark性能调优 | 内存优化

Spark性能调优之算子调优（二）

Spark性能调优-RDD算子调优篇（深度好文，面试常问，建议收藏）

Spark性能调优 Shuffle（二）

Spark Job 性能调优（二）

spark性能调优

今日推荐

探索 api.maynor1024.live：一站式 AI 服务平台

AI一键去衣技术：窥见深度学习在图像处理领域的革命(最后有彩蛋)

艾体宝案例 | 使用Redis和Spring Ai构建rag应用程序

Apple M1 vs 高通8Gen2 vs Apple A12Z各方面比较

【升职加薪必备架构图】Springboot学习路线汇总_springboot四层架构流程图

与Apollo共创生态：Apollo7周年大会自动驾驶生态利剑出鞘

Spring Boot 3.0：未来企业应用开发的基石

Java 的 AI 前景光明

国内首个智能体生态大会！2024百度万象大会定档5月30日

开源一周年，青语言新版发布

深入浅出：大型语言模型（LLM）的全面解读

顶会ICLR2024论文Time-LLM：基于大语言模型的时间序列预测

周排行

第五讲：AbstractBean以及Ioc常见注解使用和自动装配

python-re模块学习-正则表达式

黑客攻击常用手段

正则表达式的规则

windwos::mutex

Spring中日志的使用（log4j）

Bootstra5 按钮处理

JVM内存结构-这一篇全部了解

Android的低级错误

Oracle中Cursor, A表a1字段值复制到B表b1字段

每日归档

更多

2024-06-02(4)

2024-06-01(60)

2024-05-31(47)

2024-05-30(4)

2024-05-29(65)

2024-05-28(2)

2024-05-27(56)

2024-05-26(6)

2024-05-25(68)

2024-05-24(65)