Spark系列--综述

编程接口

其他网址

Spark Dataset介绍和使用_zghgchao-CSDN博客
论RDD、DataSet、DataFrame关系及优劣 - osc_c0usoa3v的个人空间 - OSCHINA - 中文开源技术交流社区
Spark DataSet介绍_象在舞的技术专栏-CSDN博客

简介

        Dataset是从Spark 1.6开始引入的一个新的抽象,当时还是处于alpha版本;然而在Spark 2.0,它已经变成了稳定版了。下面是DataSet的官方定义:

        Dataset是特定域对象中的强类型集合,它可以使用函数或者相关操作并行地进行转换等操作。每个Dataset都有一个称为DataFrame的非类型化的视图,这个视图是行的数据集。上面的定义看起来和RDD的定义类似,RDD的定义如下:

        RDD也是可以并行化的操作,DataSet和RDD主要的区别是:DataSet是特定域的对象集合;然而RDD是任何对象的集合。DataSet的API总是强类型的;而且可以利用这些模式进行优化,然而RDD却不行。

        Dataset的定义中还提到了DataFrame,DataFrame是特殊的Dataset,它在编译时不会对模式进行检测。在未来版本的Spark,Dataset将会替代RDD成为我们开发编程使用的API(注意,RDD并不是会被取消,而是会作为底层的API提供给用户使用)。

猜你喜欢

转载自blog.csdn.net/feiying0canglang/article/details/114177988