Spark 03 Spark SQL 概述 - 代码天地

Spark 03 Spark SQL 概述

其他 2018-08-29 22:08:43 阅读次数: 0

版权声明：本文为博主原创文章，未经博主允许不得转载。 https://blog.csdn.net/lihaogn/article/details/82118716

Spark SQL is a Spark module for structured data processing.

1）为什么需要SQL

事实上的标准
易学易用
受众面大

2）特点

1） Integrated
Seamlessly mix SQL queries with Spark programs.
Spark SQL lets you query structured data inside Spark programs, using either SQL or a familiar DataFrame API. Usable in Java, Scala, Python and R.

2） Uniform Data Access
Connect to any data source the same way.
DataFrames and SQL provide a common way to access a variety of data sources, including Hive, Avro, Parquet, ORC, JSON, and JDBC. You can even join data across these sources.
3）Hive Integration
Run SQL or HiveQL queries on existing warehouses.
Spark SQL supports the HiveQL syntax as well as Hive SerDes and UDFs, allowing you to access existing Hive warehouses.
4）Standard Connectivity
Connect through JDBC or ODBC.
A server mode provides industry standard JDBC and ODBC connectivity for business intelligence tools.
5）Performance & Scalability
Spark SQL includes a cost-based optimizer, columnar storage and code generation to make queries fast. At the same time, it scales to thousands of nodes and multi hour queries using the Spark engine, which provides full mid-query fault tolerance. Don’t worry about using a different engine for historical data.

应用并不局限于SQL
访问hive、json、parquet等文件的数据
SQL只是spark SQL的一个功能而已
提供了SQL、dataframe、dataset的API

3）愿景

write less code
read less data
let the optimizer do the hard work

4）架构
这里写图片描述

猜你喜欢

转载自blog.csdn.net/lihaogn/article/details/82118716

Spark 03 Spark SQL 概述

Spark SQL概述

spark sql的概述与来历

【Spark】Spark七： Spark概述

Spark（一）Spark概述

Spark学习---Spark概述

Spark 概述

Spark概述

第4章 Spark SQL概述

spark笔记-spark sql

计算利器Spark——Spark概述

Spark SQL

大数据之Spark Sql（一）：Spark SQL 概述、历史、优势、

Spark SQL External Data Source 产生背景 & 概述 & 目标 & 使用

spark-sql的概述以及编程模型的介绍

03、IDEA下Spark

03-spark kafka

Spark day03

Spark-03 scala

spark03

03_spark wordcount

Hive on Spark 与Spark SQL比较

Spark之spark.sql

Spark基础：（六）Spark SQL

Spark 04 Spark SQL 使用

spark基础六 spark SQL

Spark-Spark SQL and DataFrame

Spark SQL与Hive on Spark的比较

Spark学习之Spark SQL

Spark学习笔记：Spark SQL

今日推荐

火速冲上 GitHub 热榜 —— 开源编程语言、框架哪有这么可爱？

北京人形机器人创新中心发布全球首个纯电驱拟人奔跑的全尺寸人形机器人“天工”

LFOSSA 源来如此公开课 | 掌握云原生未来：CNCF 认证全面攻略与备考秘籍

国产云输入法——仅华为无云端数据上传安全问题

开源日报 | 工业开源项目OGG 1.0；姐姐，你要和我一起配置火狐吗；苹果AI遥遥落后？Fedora 40

开放签电子签章：停止新增，优化体验，前进更进（五一假期前工作）

开源日报 | 中学生开源前端动画引擎；全球首个Llama3 8B中文版开源模型；联想电脑恐出局；Linus讽刺AI炒作

周排行

浏览器对同一域名进行请求的最大并发连接数

React Hook之自定义Hook

【转】MyBatis缓存机制

-Java-泛型

自动化测试常用脚本-发送邮件

LeetCode#859: Buddy Strings

java、Python处理字符串

第二篇の博客

Hadoop伪分布式环境安装

SQL Server进阶（十一）临时表、表变量

每日归档

更多

2024-04-27(56)

2024-04-26(39)

2024-04-25(22)

2024-04-24(36)

2024-04-23(26)

2024-04-22(39)

2024-04-21(0)

2024-04-20(6)

2024-04-19(5)

2024-04-18(0)