内容提要
- Spark文件存取
- JSON文件存取
- CSV文件存取
- SquenceFile的存取
- 文本文件存取
- 案例分析
一、Spark文件存取
在Spark系统中,提供了多种文件格式的读取和保存的API。数据的读取和保存可以从两个维度来区分:文件格式和文件系统。
- 文件格式分类:text文件、Object文件和sequence文件。
- 文件系统分类:本地文件系统、HDFS等。
二、JSON文件存取
JSON(JavaScript Object Notation)是一种轻量级的数据交换格式,易于人阅读和编写,同时也易于机器解析和生成。
1、Json文件保存,案例代码如下
2、Json文件读取,案例代码如下
三、CSV文件存取
CSV文件是一种纯文本格式的文件,用于存储表格数据。CSV文件以纯文本形式存储数据,通常包含数字和文本,字段之间通过逗号或其他分隔符(如制表符)分隔。
1、CSV文件读取
2、CSV文件存储
四、SquenceFile的存取
SequenceFile文件是Hadoop用来存储二进制形式的key-value对而设计的一种平面文件(Flat File)。
1、SequenceFile文件的保存
2、SequenceFile文件的读取
五、文本文件存取
1、文本文件text的保存
2、文本文件text的读取
六、案例解析
汇总学生成绩并以文本格式存储在HDFS上,数据汇总为学生ID,姓名,大数据成绩,数学成绩,总分,平均分。结果如下所示:
步骤1:先将学生信息表与大数据基础成绩表连接,采用join连接的方式,然后再将结果与应用数学成绩表连接,加入应用数学成绩,同样采用join连接的方式
步骤2:将步骤1的结果与前面score总成绩连接,再将avg_score平均成绩连接,并将结果保存到HDFS。
更多精彩内容请关注本站!