数值RDD的统计操作

Spark 对包含数值数据的 RDD 提供了一些描述性的统计操作。 Spark 的数值操作是通过流式算法实现的,允许以每次一个元素的方式构建出模型。这些 统计数据都会在调用  stats()  时通过一次遍历数据计算出来,并以StatsCounter  对象返回。

方法    含义
count() RDD中的元素个数
mean() 元素的平均值
sum() 总和
max() 最大值
min() 最小值
variance() 元素的方差
sampleVariance() 从采样中计算出方差
stdev() 标准差
sampleStdev() 采样的标准差
   
举例如下:
scala> var rdd1 = sc.makeRDD(1 to 100)
rdd1: org.apache.spark.rdd.RDD[Int] = ParallelCollectionRDD[42] at
makeRDD at <console>:32
scala> rdd1.sum()
res34: Double = 5050.0
scala> rdd1.max()
res35: Int = 100

猜你喜欢

转载自blog.csdn.net/liangzelei/article/details/80573015