Spark SQL概述 - 代码天地

Spark SQL概述

其他 2018-10-18 23:31:09 阅读次数: 0

1.什么是Spark SQL

Spark SQL是Spark用来处理结构化数据的一个模块，它提供了一个编程抽象叫做DataFrame并且作为分布式SQL查询引擎的作用，将SQL解析成特殊的RDD(DataFrame)，然后在Spark集群上运行

2.为什么要学习Spark SQL

我们已经学习了Hive，它是将Hive SQL转换成MapReduce然后提交到集群上执行，大大简化了编写MapReduce的程序的复杂性，由于MapReduce这种计算模型执行效率比较慢。所以有Spark SQL的应运而生，它是将Spark SQL转换成RDD，然后提交到集群执行，执行效率非常快

3.Spark SQL的特点

1)易整合，可以使用SQL或者DataFrame API

2)统一的数据访问方式，以相同方式连接到任何数据源(Hive，Avro，Parquet，ORC，JSON和JDBC)

3)Hive集成，Spark SQL支持HiveQL语法以及Hive SerDes和UDF，允许访问现有的Hive仓库

4)提供标准的连接(JDBC和ODBC)

4.DataFrame

1)什么是DataFrame

与RDD类似，DataFrame也是一个分布式数据容器。然而DataFrame更像传统数据库的二维表格，除了数据以外，还记录数据的结构信息，即schema。同时，与Hive类似，DataFrame也支持嵌套数据类型（struct、array和map）。从API易用性的角度上看，DataFrame API提供的是一套高层的关系操作，比函数式的RDD API要更加友好，门槛更低。由于与R和Pandas的DataFrame类似，Spark DataFrame很好地继承了传统单机数据分析的开发体验

2)RDD与DataFrame的区别

DataFrame里面存放的结构化数据的描述信息，DataFrame要有表头（表的描述信息），描述了有多少列，每一列数叫什么字、什么类型、能不能为空

DataFrame是特殊的RDD（普通的RDD+Schema信息就变成了DataFrame）

猜你喜欢

转载自blog.csdn.net/ys_230014/article/details/83106592

Spark 03 Spark SQL 概述

Spark SQL概述

spark sql的概述与来历

第4章 Spark SQL概述

【Spark】Spark七： Spark概述

Spark学习---Spark概述

Spark（一）Spark概述

Spark 概述

Spark概述

spark笔记-spark sql

大数据之Spark Sql（一）：Spark SQL 概述、历史、优势、

Spark SQL External Data Source 产生背景 & 概述 & 目标 & 使用

spark-sql的概述以及编程模型的介绍

计算利器Spark——Spark概述

Spark SQL

Spark大数据处理讲课笔记4.1 Spark SQL概述、数据帧与数据集

Hive on Spark 与Spark SQL比较

Spark之spark.sql

Spark基础：（六）Spark SQL

Spark 04 Spark SQL 使用

spark基础六 spark SQL

Spark-Spark SQL and DataFrame

Spark SQL与Hive on Spark的比较

Spark学习之Spark SQL

Spark学习笔记：Spark SQL

spark笔记之Spark SQL

Spark -- Spark SQL初体验

【Spark】Spark Web UI - SQL

spark 调优概述

Spark Streaming概述

今日推荐

基于大语言模型的开源知识库问答系统 MaxKB GitHub Star 数量突破 5,000 个！

美国拟限制 AI 大模型出口中国和俄罗斯

苹果将与 OpenAI 达成协议，将 ChatGPT 应用于 iPhone

openKylin 社区生态委员会第六次会议圆满召开

阿里云正式发布通义千问 2.5

Python 3.13 发布首个 Beta：实验性自由线程模式和 JIT、改进交互式解释器

Stack Overflow 拿我的代码去训练 AI 大模型，还封了我的账号

Pop!_OS 的 COSMIC 桌面完成 App Store 上架工作

《2024 年一季度互联网投融资运行情况》研究报告

报告：Django 仍然是 74% 开发者的首选

15 年前上了“FFmpeg 耻辱柱”，今天他还得谢谢咱——腾讯QQPlayer一雪前耻？

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

周排行

记一下去大梅沙的准备（2018-05-26）

Spring 注解事务

基于HTTP协议的客户端缓存

阿里云rds 备份和还原

[PHP] 几个拖慢 PHP 程序/API 运行速度的点

python 代码风格------------PEP8规则

js控制json生成菜单——自制菜单（一）

将字符串: 'k:1|k1:2|k2:3|k3:4 ' ,处理成 python 字典: {'k':1, 'k1':2, ...}

微信小程序转支付宝小程序

Qt551.窗口滚动条

每日归档

更多

2024-05-13(18)

2024-05-12(0)

2024-05-11(38)

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)