第5章数据读取与保存 - 代码天地

第5章数据读取与保存

编程语言 2018-09-27 09:53:11 阅读次数: 0

版权声明：本文为博主原创文章，未经博主允许不得转载。 https://blog.csdn.net/u010819416/article/details/82824452

5.1 动机
三类常见的数据源：
1）文件格式与文件系统

2）Spark SQL中的结构化数据源

3）数据库与键值存储

5.2 文件格式
对多种文件格式的读取和保存方式都很简单。

5.2.1 文本文件

读取文本文件

textFile()
wholeTextFiles()

2.保存文本文件

saveAsTextFile()
接收一个路径，会在那个目录下输出多个文件，这样，Spark可以从多个节点上并行输出。

5.2.2 JSON

读取JSON
将数据作为文本文件读取。
保存JSON
字符串RDD写出文件

5.2.3 逗号分隔值与制表符分隔值（csv）

读取CSV
文件
保存CSV
文件

5.2.4 SequenceFile
常用的Hadoop格式。

5.2.5 对象文件

5.2.6 Hadoop输入输出格式

5.3 文件系统
支持读写很多种文件系统

5.3.1 本地/"常规"文件系统
只需要指定输入为一个file://路径

5.3.2 Amazon S3

5.3.3 HDFS
使用HDFS，只需要将输入输出路径指定为hdfs://master:port/path就够了。

5.4 Spark SQL中的结构化数据
把一条SQL查询给Spark SQL，让它对一个数据源执行查询，然后得到由Row对象组成的RDD，每个Row对象表示一条记录。Row对象的访问是基于下标。

5.4.1 Apache Hive

5.4.2 JSON
要读取JSON数据，和使用Hive一样创建一个HiveContext，然后使用HiveContext.jsonFile方法从整个文件中获取有Row对象组成的RDD。

5.5 数据库
通过数据库提供的Hadoop连接器或者自定义的Spark连接器，Spark可以访问一些常用的数据库系统

5.5.1 Java数据库连接
可以从任何支持Java数据库连接（JDBC）的关系型数据库中读取数据。

5.5.2 Cassandra

5.5.3 HBase

5.5.4 Elasticsearch

5.6 总结

猜你喜欢

转载自blog.csdn.net/u010819416/article/details/82824452

第5章数据读取与保存

第5章数据的共享与保护第5章小结

【代码】第5章数据存储

第5章数据的共享和保护

数据结构第5章总结

第5章 ResponseBody响应json数据

第5章数据类型

第5章-数据存储-练习

Netty源码分析第5章(ByteBuf)---->第10节: SocketChannel读取数据过程

第5章数据的共享与保护共享数据的保护

第5章 Hive数据操作---DML数据操作

史上最简单的spark教程第七章-spark的数据读取与保存Java案例实践

第5章 SQL Server数据库备份与恢复

《机器学习Python实践》第5章——数据导入

MySQL必知应会-第5章-排序检索数据

大数据技术之Hadoop（MapReduce）第5章 Yarn

第5章数据类型和运算符

[Python数据挖掘]第5章、挖掘建模（上）

[Python数据挖掘]第5章、挖掘建模（下）

Java从入门到精通第5章数据类型

《数据结构》学习笔记第5章树

MySQL必知必会——第5章排序检索数据

广工anyview数据结构第3~5章

[数据结构与算法]第5章栈

第5章：Java数据类型简介

C++ 第5章数据的共享与保护

MySQL数据操作与查询笔记 • 【第5章 MySQL 函数】

第5章数据库分库分表实例

《Tango with Django》-第5章模型与数据库

【SQL】sql从0到1——第【5】章：数据更新

今日推荐

《美国对全球网络空间安全与发展的威胁和破坏》报告发布

火速冲上 GitHub 热榜 —— 开源编程语言、框架哪有这么可爱？

北京人形机器人创新中心发布全球首个纯电驱拟人奔跑的全尺寸人形机器人“天工”

LFOSSA 源来如此公开课 | 掌握云原生未来：CNCF 认证全面攻略与备考秘籍

周排行

循环神经网络（rnn）讲解

Tigao教程四：单独的关节运动

金蝶K3WISE15.0-注册套打教程

如何在Mac上配置Kubernetes

Android应用结束自身进程的方法

SpringMVC学习十三拦截器栈

中国驻洛杉矶总领馆举行新春招待会

HttpClient get post 发送

11 - three.js 笔记 - 绘制三维字体模型

Mysql递归获取某个父节点下面的所有子节点和子节点上的所有父节点

每日归档

更多

2024-05-01(4)

2024-04-30(1)

2024-04-29(40)

2024-04-28(0)

2024-04-27(56)

2024-04-26(39)

2024-04-25(22)

2024-04-24(36)

2024-04-23(26)

2024-04-22(39)