Spark常规性能调优二:RDD优化

1.RDD复用

在对RDD进行算子时,要避免相同的算子和计算逻辑之下对RDD进行重复的计算

对图中的架构进行修改就会得到以下的优化结果

2.RDD持久化

在Spark中,当多次对同一个RDD执行算子操作时,每一次都会对这个RDD的父RDD重新计算一次,这种情况是要避免的,对同一个RDD进行重复计算是对资源的极大浪费,因此,必须对多次使用的RDD进行持久化,通过持久化将公共的RDD数据缓存到磁盘/内存中,之后对于公共RDD的计算都会直接获取。

对于RDD的持久化,有两点需要说明

第一,RDD的持久化是可以进行序列化的,当内存无法将RDD的数据完整的进行存放的时候,可以考虑使用序列化的方式减小数据体积,将数据完整存储在内存中。

第二,如果对于数据的可靠性要求很高,并且内存充足,可以使用副本机制,对RDD数据进行持久化。当持久化启用了复本机制时,对于持久化的每个数据单元都存储一个副本,放在其他节点上面,由此实现数据的容错,一旦一个副本数据丢失,不需要重新计算,还可以使用另外一个副本。

3.RDD尽可能早的filter操作

获取到初始RDD后,应该考虑尽早地过滤掉不需要的数据,进而减少对内存的占用,从而提升Spark作业的运行效率。

猜你喜欢

转载自blog.csdn.net/weixin_43233971/article/details/109290299