Spark RDD-DataFrame-DataSet三者异同

版权声明:未经同意,不得转载。 https://blog.csdn.net/qq_36235275/article/details/82502500

三者的共性

  • RDD、DataFrame、Dataset全都是spark平台下的分布式弹性数据集,为处理超大型数据提供便利
  • 三者都有惰性机制,在进行创建、转换,如map方法时,不会立即执行,只有在遇到Action如foreach时,三者才会开始遍历运算,极端情况下,如果代码里面有创建、转换,但是后面没有在Action中使用对应的结果,在执行时会被直接跳过.
  • 三者都会根据spark的内存情况自动缓存运算,这样即使数据量很大,也不用担心会内存溢出
  • 三者都有partition的概念
  • 三者有许多共同的函数,如filter,排序等
  • 在对DataFrame和Dataset进行操作许多操作都需要spark.implicits._进行支持
  • DataFrame和Dataset均可使用模式匹配获取各个字段的值和类型

三者的区别

  • RDD 
    • RDD一般和spark mllib同时使用
    • RDD不支持sparksql操作
  • DataFrame 
    • 与RDD和Dataset不同,DataFrame每一行的类型固定为Row,只有通过解析才能获取各个字段的值
    • DataFrame与Dataset一般不与spark mllib同时使用
    • DataFrame与Dataset均支持sparksql的操作,比如select,groupby之类,还能注册临时表/视窗,进行sql语句操作
    • DataFrame与Dataset支持一些特别方便的保存方式,比如保存成csv,可以带上表头,这样每一列的字段名一目了然
  • Dataset 
    • Dataset和DataFrame拥有完全相同的成员函数,区别只是每一行的数据类型不同
    • DataFrame也可以叫Dataset[Row],每一行的类型是Row,不解析,每一行究竟有哪些字段,各个字段又是什么类型都无从得知,只能用上面提到的getAS方法或者共性中的第七条提到的模式匹配拿出特定字段。而Dataset中,每一行是什么类型是不一定的,在自定义了case class之后可以很自由的获得每一行的信息

猜你喜欢

转载自blog.csdn.net/qq_36235275/article/details/82502500