一、基础简介

Spark是一种通用的大数据计算框架，使用了内存内运算技术。今天加米谷大数据就来简单介绍一下Spark的简史。
Spark的简史
1、2009年，Spark诞生于伯克利大学AMPLab，属于伯克利大学的研究性项目；
2、2010 年，通过BSD 许可协议正式对外开源发布；
3、2012年，Spark第一篇论文发布，第一个正式版（Spark 0.6.0）发布；
4、2013年，成为了Aparch基金项目；发布Spark Streaming、Spark Mllib（机器学习）、Shark（Spark on Hadoop）；
5、2014 年，Spark 成为 Apache 的顶级项目； 5 月底 Spark1.0.0 发布；发布 Spark Graphx（图计算）、Spark SQL代替Shark；
6、2015年，推出DataFrame（大数据分析）；2015年至今，Spark在国内IT行业变得愈发火爆，大量的公司开始重点部署或者使用Spark来替代MapReduce、Hive、Storm等传统的大数据计算框架；
7、2016年，推出dataset（更强的数据分析手段）；
8、2017年，structured streaming 发布；
9、2018年，Spark2.4.0发布，成为全球最大的开源项目。

基本组件
Spark Core；Spark 核心 API，提供 DAG 分布式内存计算框架
Spark SQL：提供交互式查询 API
Spark Streaming：实时流处理
SparkML：机器学习 API
Spark Graphx：图形计算

二、spark四大特点

1、速度快

由于Apache Spark支持内存计算，
并且通过DAG（有向无环图）执行引擎支持无环数据流，
所以官方宣称其在内存中的运算速度要比Hadoop的MapReduce快100倍，在硬盘中要快10倍。

Spark处理数据与MapReduce处理数据相比，有如下两个不同点：
·Spark处理数据时，可以将中间处理结果数据存储到内存中
·spark提供非常丰富的算子（API），可以做到复杂人在一个spark程序中完成，也是以线程方式进行计算并非mapreduce的进程

2、易使用

spark支持了包括Java、Scala、Python、R和SQL语言在内的多种语言。
为了兼容Spark2.x企业级应用场景，Spark仍然持续更新Spark2版本

3、通用性强

spark Core API（核心模块）：支持R，SQL,Python,Scala,Java等语言
在Spark的基础（核心模块）上，Spark还提供了包括Spark SQL+DataFrames、Spark Streaming、MLib(机器学习）及GraphX（图计算）在内的多个工具库

4、运行方式

Spark支持多种运行方式，包括在Hadoop和Mesos上，也支持Standalone的独立运行模式，同时也可以运行在云Kubernets（Spark2.3开始支持）上
对于数据源而言，Spark支持从HDFS、HBase、Cassandra及Kafka等多种途径获取和数据
i、文件系统：localFS、HDFS、Hive、text、parquet、orc、jsion、csv
ii、数据库RDBMs：mysql、Oracle、mssql
iii、NOsql数据库：Hbase、ES、Redis
iv、消息对象：kafka

三、spark框架模块

整个模块包含：sparkcore、spark SQL、spark streaming、sparkgrphx、spark MLib而后四项建立在核心引擎之上的
Spark Core：spark的核心，Spark核心功能均由Spark Core模块提供，是Spark运行的基础。Spark Core以RDD为数据抽象，提供python、Java、Scala、R语言的API，可以编程进行海量离线数据批处理计算。
SparkSQL：基于SparkCore之上，提供结构化数据的处理模块。SparkSQL支持以sql语言对数据进行处理，sparkSQL本身针对离线计算场景。同时基于SparkSQL,Spark提供StructuredStreaming模块，可以以SparkSQL为基础，进行数据的流计算。
SparkStreaming：以SparkCore为基础，提供数据的流计算功能。
MLib：以SparkCore为基础，进行机器学习计算，内置了大量的机器学习库和API算法等，方便用户以分布式计算的模式继续宁机器学习计算。
Graphx：以SparkCore为基础，进行图计算，提供额大量的图计算API，方便用于以分布式计算模式进行图计算。

四、运行方式

spark提供多种运行模式，包括：
本地模式（单机）LOCAL 开发测试：
本地模式就是以一个独立的进程，通过其内部的多个线程来模拟整个Spark运行时环境
Standalone模式（集群）
spark中的各个角色以独立进行的形式存在，并组成Spark集群环境
HadoopYARN模式（集群）
Spark中的各个角色运行在YARN的容器内部，并组成Spark集群环境。
KUbernetes模式（容器集群）
Spark中的各个角色运行在KUbernetes的容器内部并组成Spark集群环境
云服务模式（运行在云平台上）

五、spark的架构角色

YRAN主要有4类角色，从2个层面去看：
资源管理层面
·集群资源管理者(MASTER)：ResourceManager
·单机资源管理者(Worker)：NodeManager

任务计算层面
·单任务管理者(Master):ApplicationMaster
·单任务执行者(Worker)：Task(容器内计算框架的工作角色)

SPARK角色：
资源层面：
MASTER角色：集群资源管理者
Workerde的角色：单机资源管理者

任务运行层面：
Driver:单个任务的管理
Executor角色：单个任务的计算（worker干活的）

注：正常情况下Executor是干活的角色，不过再特殊场景下（local模式）Driver可以即管理又干活

六、总结

spark解决的问题：
海量数据的计算，可以进行离线批处理以及实时流计算

spark模块：
sparkcore、SQL、流计算（SparkStreaming）、图计算（Graphx）、机器学习（MLib）

spark特点：
速度快、使用简单、通用性强、多模式运行

spark运行模式
本地模式
集群模式
云模式

spark的运行角色
MASTER：集群资源管理者（类同ResourceManager)
worker：单机资源管理者（类同NodeManager)
Driver：单任务管理者（类同ApplicationMaster)
Executor：单任务执行者(类同YARN容器内的Task）

Spark基础知识梳理