大数据技术Spark文件存取解析

一、Spark文件存取

在Spark系统中，提供了多种文件格式的读取和保存的API。数据的读取和保存可以从两个维度来区分：文件格式和文件系统。

JSON（‌JavaScript Object Notation）是一种轻量级的数据交换格式，易于人阅读和编写，同时也易于机器解析和生成。

1、Json文件保存，案例代码如下

2、Json文件读取，案例代码如下

CSV文件是一种纯文本格式的文件‌，用于存储表格数据。CSV文件以纯文本形式存储数据，通常包含数字和文本，字段之间通过逗号或其他分隔符（如制表符）分隔。

1、CSV文件读取

2、CSV文件存储

SequenceFile文件是Hadoop用来存储二进制形式的key-value对而设计的一种平面文件(Flat File)。

1、SequenceFile文件的保存

2、SequenceFile文件的读取

1、文本文件text的保存

2、文本文件text的读取

汇总学生成绩并以文本格式存储在HDFS上，数据汇总为学生ID，姓名，大数据成绩，数学成绩，总分，平均分。结果如下所示：

步骤1：先将学生信息表与大数据基础成绩表连接，采用join连接的方式，然后再将结果与应用数学成绩表连接，加入应用数学成绩，同样采用join连接的方式

步骤2：将步骤1的结果与前面score总成绩连接，再将avg_score平均成绩连接，并将结果保存到HDFS。

更多精彩内容请关注本站！