自己实现一个RDD,需要实现哪些函数或者部分?

  RDD由以下几个主要部分组成:

  partitions --- partition集合,一个RDD中有多少data partition。

  dependencies --- RDD依赖关系,即对其他RDD的依赖列表。

  compute(partition) --- 对于给定的数据集,需要做哪些计算,针对每个partition的计算函数,即同一个RDD的每个切片的数据使用相同的计算函数。

  perferredLocations --- 对于 data partiton的位置偏好。

猜你喜欢

转载自my.oschina.net/134596/blog/1807432