spark之DataFrame、DataSet、RDD的区别 - 代码天地

spark之DataFrame、DataSet、RDD的区别

其他 2019-03-28 21:27:50 阅读次数: 0

RDD(弹性分布式数据集)

RDD是Spark中最基本的数据抽象，它代表一个不可变、可分区、里面的元素可并行计算的集合，RDD是Spark Core的底层核心，Spark则是这个抽象方法的实现

DataFrame

上图直观地体现了DataFrame和RDD的区别。
左侧的RDD[Person]虽然以Person为类型参数，但Spark框架本身不了解 Person类的内部结构。
而右侧的DataFrame却提供了详细的结构信息，使得Spark SQL可以清楚地知道该数据集中包含哪些列，每列的名称和类型各是什么。DataFrame多了数据的结构信息，即schema。这样看起来就像一张表了，DataFrame还配套了新的操作数据的方法，DataFrame API（如df.select())和SQL(select id, name from xx_table where …)

DataSet

DataSet是分布式的数据集合。DataSet是在Spark1.6中添加的新的接口。它集中了RDD的优点（强类型和可以用强大lambda函数）以及Spark SQL优化的执行引擎。DataSet可以通过JVM的对象进行构建，可以用函数式的转换（map/flatmap/filter）进行多种操作
DataSet（dataset中每行数据是个Object）包含了DataFrame的功能，Spark2.0中两者统一，DataFrame表示为DataSet[Row]，即DataSet的子集

转载自：https://blog.csdn.net/qq_40359681/article/details/79517527

猜你喜欢

转载自blog.csdn.net/weixin_40903057/article/details/88425017

spark之DataFrame、DataSet、RDD的区别

Spark RDD、DataFrame和DataSet的区别

Spark RDD,DataFrame和DataSet的区别

Spark中RDD与DataFrame与DataSet的区别与联系

spark中RDD，DataSet，DataFrame的区别

Spark-DataFrame、DataSet、RDD的区别

Spark中RDD、DataFrame和DataSet的区别

spark中 RDD、DataFrame、Dataset的关系及区别

Spark中RDD、DataSet、DataFrame的联系与区别

spark 中 RDD、DataFrame、Dataset区别

Spark之RDD、DataSet、DataFrame转换

RDD、DataFrame、DataSet的区别

APACHE SPARK: RDD, DATAFRAME OR DATASET?

Spark中 DataFrame,DataSet,RDD

Spark之【SparkSQL编程】系列(No3)——《RDD、DataFrame、DataSet三者的共性和区别》

Spark中RDD和DataFrame、DataSet的区别?---面试题

Spark中RDD、DataFrame和DataSet三者的区别

Rdd,DataFrame和DataSet的区别

RDD、DataFrame和DataSet的区别

spark教程(11)-RDD-DF-DS 汇总 Spark中RDD、DataFrame和DataSet的区别

spark-RDD vs DataFrame vs DataSet

Spark-RDD、Dataset、DataFrame互相转换

理解Spark中的RDD、DataFrame和DataSet

Spark中的RDD、DataFrame、Dataset对比

Spark SQL-DataFrame，DataSet与RDD

Spark SQL及RDD、DataFrame、DataSet数据抽象

RDD、DataFrame、Dataset的区别与联系（详细）

RDD, DataFrame,DataSet区别与相互转化

Spark DataSet和RDD与DataFrame转换成DataSet

spark-dataframe与rdd的区别

今日推荐

面壁智能发布 Eurux-8x22B 开源大模型 —— 堪称「理科状元」

开源日报 | 谷歌扶持鸿蒙上位；开源Rabbit R1；Docker加持的安卓手机；微软的焦虑和野心；海尔电器把开放平台关了

中国码农的“35岁魔咒”

蘭雅 CorelDRAW 插件 2024.5.1 国际劳动节版，免费下载

Arc Browser for Windows 1.0 正式 GA

90后程序员开发视频搬运软件、不到一年获利超 700 万，结局很刑！

周排行

【转】spring中对控制反转和依赖注入的理解

tms webcore 安装和使用

java程序员进阶相关书籍

SpringMVC接受请求参数、

如何保存训练好的机器学习模型

MyEclipse、Eclipse设置项目JDK的三个地方

商超行业微信小程序开发定制一般多少钱（行业技术人员解读）

Markdown编辑器语言——30分钟入门到到精通

Linux系统下MongoDB的简单安装与基本操作

Power Strings

每日归档

更多

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)

2024-05-03(19)

2024-05-02(0)

2024-05-01(4)

2024-04-30(1)

2024-04-29(40)

2024-04-28(0)