大数据技术Spark文件存取解析

内容提要

  • Spark文件存取
  • JSON文件存取
  • CSV文件存取
  • SquenceFile的存取
  • 文本文件存取
  • 案例分析

一、Spark文件存取

在Spark系统中,提供了多种文件格式的读取和保存的API。数据的读取和保存可以从两个维度来区分:文件格式和文件系统。

  • 文件格式分类:text文件、Object文件和sequence文件。
  • 文件系统分类:本地文件系统、HDFS等。

二、JSON文件存取

JSON(‌JavaScript Object Notation)是一种轻量级的数据交换格式,易于人阅读和编写,同时也易于机器解析和生成。

1、Json文件保存,案例代码如下

2、Json文件读取,案例代码如下

三、CSV文件存取

CSV文件是一种纯文本格式的文件‌,用于存储表格数据。CSV文件以纯文本形式存储数据,通常包含数字和文本,字段之间通过逗号或其他分隔符(如制表符)分隔。

1、CSV文件读取

2、CSV文件存储

四、SquenceFile的存取

SequenceFile文件是Hadoop用来存储二进制形式的key-value对而设计的一种平面文件(Flat File)。

1、SequenceFile文件的保存

2、SequenceFile文件的读取

五、文本文件存取

1、文本文件text的保存

2、文本文件text的读取

六、案例解析

汇总学生成绩并以文本格式存储在HDFS上,数据汇总为学生ID,姓名,大数据成绩,数学成绩,总分,平均分。结果如下所示:

步骤1:先将学生信息表与大数据基础成绩表连接,采用join连接的方式,然后再将结果与应用数学成绩表连接,加入应用数学成绩,同样采用join连接的方式

步骤2:将步骤1的结果与前面score总成绩连接,再将avg_score平均成绩连接,并将结果保存到HDFS。

更多精彩内容请关注本站!

猜你喜欢

转载自blog.csdn.net/sinat_30844883/article/details/143251338