Spark RDD-DataFrame-DataSet三者异同 - 代码天地

Spark RDD-DataFrame-DataSet三者异同

其他 2019-01-05 00:10:19 阅读次数: 0

版权声明：未经同意，不得转载。 https://blog.csdn.net/qq_36235275/article/details/82502500

三者的共性

RDD、DataFrame、Dataset全都是spark平台下的分布式弹性数据集，为处理超大型数据提供便利
三者都有惰性机制，在进行创建、转换，如map方法时，不会立即执行，只有在遇到Action如foreach时，三者才会开始遍历运算，极端情况下，如果代码里面有创建、转换，但是后面没有在Action中使用对应的结果，在执行时会被直接跳过.
三者都会根据spark的内存情况自动缓存运算，这样即使数据量很大，也不用担心会内存溢出
三者都有partition的概念
三者有许多共同的函数，如filter，排序等
在对DataFrame和Dataset进行操作许多操作都需要spark.implicits._进行支持
DataFrame和Dataset均可使用模式匹配获取各个字段的值和类型

三者的区别

RDD
- RDD一般和spark mllib同时使用
- RDD不支持sparksql操作
DataFrame
- 与RDD和Dataset不同，DataFrame每一行的类型固定为Row，只有通过解析才能获取各个字段的值
- DataFrame与Dataset一般不与spark mllib同时使用
- DataFrame与Dataset均支持sparksql的操作，比如select，groupby之类，还能注册临时表/视窗，进行sql语句操作
- DataFrame与Dataset支持一些特别方便的保存方式，比如保存成csv，可以带上表头，这样每一列的字段名一目了然
Dataset
- Dataset和DataFrame拥有完全相同的成员函数，区别只是每一行的数据类型不同
- DataFrame也可以叫Dataset[Row],每一行的类型是Row，不解析，每一行究竟有哪些字段，各个字段又是什么类型都无从得知，只能用上面提到的getAS方法或者共性中的第七条提到的模式匹配拿出特定字段。而Dataset中，每一行是什么类型是不一定的，在自定义了case class之后可以很自由的获得每一行的信息

猜你喜欢

转载自blog.csdn.net/qq_36235275/article/details/82502500

Spark RDD-DataFrame-DataSet三者异同

Spark中RDD、DataFrame和DataSet三者的区别

Spark SQL 解析-RDD、DataFrame、Dataset 三者之间转换

Spark之【SparkSQL编程】系列(No3)——《RDD、DataFrame、DataSet三者的共性和区别》

Spark SQL 快速入门系列(4) | RDD、DataFrame、DataSet三者的共性和区别

APACHE SPARK: RDD, DATAFRAME OR DATASET?

Spark中 DataFrame,DataSet,RDD

【Spark开发必备技能】6-1-RDD/Datase/DataFrame-三者定义和关系

Spark RDD、DataFrame和DataSet的区别

spark-RDD vs DataFrame vs DataSet

Spark中RDD与DataFrame与DataSet的区别与联系

Spark RDD,DataFrame和DataSet的区别

spark中RDD，DataSet，DataFrame的区别

Spark-RDD、Dataset、DataFrame互相转换

Spark中RDD、DataFrame和DataSet的区别

Spark-DataFrame、DataSet、RDD的区别

理解Spark中的RDD、DataFrame和DataSet

spark之DataFrame、DataSet、RDD的区别

Spark中的RDD、DataFrame、Dataset对比

spark中 RDD、DataFrame、Dataset的关系及区别

Spark SQL-DataFrame，DataSet与RDD

Spark中RDD、DataSet、DataFrame的联系与区别

Spark SQL及RDD、DataFrame、DataSet数据抽象

Spark之RDD、DataSet、DataFrame转换

spark 中 RDD、DataFrame、Dataset区别

Spark DataSet和RDD与DataFrame转换成DataSet

Spark RDD和DataSet与DataFrame转换成RDD

Spark DataFrame及RDD与DataSet转换成DataFrame

SparkSQL 中 RDD 、DataFrame 、DataSet 三者的区别与联系

RDD和DataFrame和DataSet三者间的区别

今日推荐

Linus “吃狗粮”最积极！

开源日报 | Winamp播放器即将开源；生成式AI之战升级第二轮；Linus“吃狗粮”最积极；AI进入泡沫前期；吴泳铭为阿里云带来了什么？

NetBSD 禁止提交由 AI 生成的代码

Apache Doris 2.0.10 版本正式发布！

开源日报 | 大模型开战；大模型独角兽被曝卖身；周鸿祎建议谷歌开源所有产品；最大开源AI社区提供1000万美元共享GPU

开源日报 | Chrome内置Gemini的意义不在于Gemini；中国AI追随之路的五大误区；ECharts创始人“下海”养鱼；谷歌I/O开发者大会什么都有，只是没有惊喜

微软回应中国区AI团队“打包赴美”传闻

周排行

SVN服务端安装在阿里云

实战 | 相机标定

webpack核心概念

note20——》只要肯低头吃苦，人生就会有救

PAT甲级 1062 Talent and Virtue （25 分）排序

NG Toolset开发笔记--5GNR Resource Grid（26）

如何对待上司

oracle命令

第9章 STL迭代器

logstash使用es映射模板

每日归档

更多

2024-05-20(36)

2024-05-19(0)

2024-05-18(4)

2024-05-17(34)

2024-05-16(6)

2024-05-15(24)

2024-05-14(0)

2024-05-13(18)

2024-05-12(0)

2024-05-11(38)