Spark中cache和persist函数区别详解

在这里插入图片描述

在 Spark 中,cache()persist() 都是用来将 RDD 持久化的,但它们在使用和功能上有一些区别。下面分别解释这两个函数及它们的区别:

在这里插入图片描述

cache()函数

  • cache()persist() 的一种特殊情况,其实 cache() 底层就是调用的 persist()
  • 当调用 RDD 的 cache() 方法时,Spark 会使用默认的存储级别 MEMORY_ONLY 来持久化该 RDD。
  • 一旦 cache() 方法被调用,该 RDD 的计算结果会被保留在节点的内存中,从而使得后续对该 RDD 的操作不需要重新计算整个 RDD。
  • 示例代码:

猜你喜欢

转载自blog.csdn.net/m0_47256162/article/details/132377355