(2)RDD的基本操作

一、map操作,map(Transform)

二、collect操作,collect(Action)

三、使用PairRDD来做计算,类似key-value结构

采用groupByKey来。将资料按照Key值重新排序。

更好的解决方案:reduceByKey(Transform)

reduceByKey能够直接将资料根据key值聚合,减少多余的交换(shuffle)动作。

避免使用groupbykey,如果数据量过大,会造成内存溢出。

 

猜你喜欢

转载自www.cnblogs.com/Lee-yl/p/9766181.html