第1章 Spark 概述
1.1Spark 是什么
Spark 是一种基于内存的快速、通用、可扩展的大数据分析计算引擎。
1.2Spark and Hadoop
基于内存的快速的通用的可扩展的大数据分析计算引擎
在之前的学习中,Hadoop 的 MapReduce 是大家广为熟知的计算框架,那为什么咱们还要学习新的计算框架 Spark 呢,这里就不得不提到Spark 和Hadoop 的关系。
首先从时间节点上来看:
Hadoop
⚫2006 年 1 月,Doug Cutting 加入Yahoo,领导Hadoop 的开发
⚫2008 年 1 月,Hadoop 成为 Apache 顶级项目
⚫ 2011 年 1.0 正式发布
⚫2012 年 3 月稳定版发布
⚫2013 年 10 月发布 2.X (Yarn)版本
Spark
⚫2009 年,Spark 诞生于伯克利大学的AMPLab 实验室
⚫2010 年,伯克利大学正式开源了 Spark 项目
⚫2013 年 6 月,Spark 成为了 Apache 基金会下的项目
⚫2014 年 2 月,Spark 以飞快的速度成为了 Apache 的顶级项目
⚫2015 年至今,Spark 变得愈发火爆,大量的国