RDD和DataFrame和DataSet三者间的区别 - 代码天地

RDD和DataFrame和DataSet三者间的区别

其他 2020-10-19 14:28:59 阅读次数: 0

https://blog.csdn.net/deng624796905/article/details/80216168

https://blog.csdn.net/weixin_43087634/article/details/84398036

这两篇文章讲的很详细，大神级别的，可以拜读

DataFrame多了数据的结构信息，即schema。RDD是分布式的Java对象的集合。DataFrame是分布式的Row对象的集合。DataFrame除了提供了比RDD更丰富的算子以外，更重要的特点是提升执行效率、减少数据读取以及执行计划的优化

Dataframe的劣势在于在编译期缺少类型安全检查，导致运行时出错.

RDD (Spark1.0) —> Dataframe(Spark1.3) —> Dataset(Spark1.6)

1 RDD
RDD是Spark提供的最重要的抽象的概念，弹性的分布式数据集，它是一种有容错机制的特殊集合，可以分布在集群的节点上，以函数式编操作集合的方式，进行各种并行操作。Spark的RDD内置了各种函数操作，举个例子，我们编写wordcount案例，如果使用mapreduce进行编程，还是很复杂的，如果用RDD的话代码量大大的减少（scala编程一句话搞定），所以相对mapreduce来说单从编程上就简化了很多。但是同时也出现了一个问题，学习Scala、python、java语言，那么这个使用的成本以及门槛就会很高了对于不太懂开发的人（DBA）想要使用spark是比较困难的。

DataFrame
对于DataFrame这一概念最早是出现在R和Pandas里面的，R语言是非常适合做一些数据统计和分析的一些操作，但是它仅支持单机的处理，随着互联网的快速发展，单机处理的日志、数据必然是很有限的，而且现在的日志／数据量是越来越大，随着spark的不断壮大，在spark里面就出现了DataFrame的API（1.3版本出现的）。

猜你喜欢

转载自blog.csdn.net/Alex_81D/article/details/103876833

RDD和DataFrame和DataSet三者间的区别

Spark中RDD、DataFrame和DataSet三者的区别

Spark之【SparkSQL编程】系列(No3)——《RDD、DataFrame、DataSet三者的共性和区别》

Spark SQL 快速入门系列(4) | RDD、DataFrame、DataSet三者的共性和区别

SparkSQL 中 RDD 、DataFrame 、DataSet 三者的区别与联系

Rdd,DataFrame和DataSet的区别

RDD、DataFrame和DataSet的区别

简述SparkSQL中RDD、DataFrame、DataSet三者的区别与联系?

Spark RDD-DataFrame-DataSet三者异同

RDD,DataFrame,DataSet三者之间的转换

RDD、DataFrame和DataSet

Spark RDD、DataFrame和DataSet的区别

Spark RDD,DataFrame和DataSet的区别

Spark中RDD、DataFrame和DataSet的区别

Spark SQL 解析-RDD、DataFrame、Dataset 三者之间转换

RDD、DataFrame和DataSet比较

RDD、DataFrame和Dataset的关系

谈谈RDD、DataFrame、Dataset的区别和各自的优势

Spark中RDD和DataFrame、DataSet的区别?---面试题

RDD、DataFrame和DataSet的区别是什么？

RDD、DataFrame、DataSet的区别

RDD和DataFrame的区别

DataFrame 和 RDD 的区别

【Spark开发必备技能】6-1-RDD/Datase/DataFrame-三者定义和关系

何时使用RDD和DataFrame/DataSet

理解Spark中的RDD、DataFrame和DataSet

spark教程(11)-RDD-DF-DS 汇总 Spark中RDD、DataFrame和DataSet的区别

Python中read()、readline()和readlines()三者间的区别和用法

Python: read()、readline()和readlines()三者间的区别和用法

Spark DataSet和RDD与DataFrame转换成DataSet

今日推荐

基于大语言模型的开源知识库问答系统 MaxKB GitHub Star 数量突破 5,000 个！

美国拟限制 AI 大模型出口中国和俄罗斯

苹果将与 OpenAI 达成协议，将 ChatGPT 应用于 iPhone

openKylin 社区生态委员会第六次会议圆满召开

阿里云正式发布通义千问 2.5

Python 3.13 发布首个 Beta：实验性自由线程模式和 JIT、改进交互式解释器

Stack Overflow 拿我的代码去训练 AI 大模型，还封了我的账号

Pop!_OS 的 COSMIC 桌面完成 App Store 上架工作

《2024 年一季度互联网投融资运行情况》研究报告

报告：Django 仍然是 74% 开发者的首选

15 年前上了“FFmpeg 耻辱柱”，今天他还得谢谢咱——腾讯QQPlayer一雪前耻？

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

周排行

记一下去大梅沙的准备（2018-05-26）

Spring 注解事务

基于HTTP协议的客户端缓存

阿里云rds 备份和还原

[PHP] 几个拖慢 PHP 程序/API 运行速度的点

python 代码风格------------PEP8规则

js控制json生成菜单——自制菜单（一）

将字符串: 'k:1|k1:2|k2:3|k3:4 ' ,处理成 python 字典: {'k':1, 'k1':2, ...}

微信小程序转支付宝小程序

Qt551.窗口滚动条

每日归档

更多

2024-05-13(18)

2024-05-12(0)

2024-05-11(38)

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)