Hadoop & Spark

Hadoop & Spark 概述

Apache Hadoop 是一种通过服务集群并使用MapReduce编程数据模型完成大数据的分布式处理框架，核心模块包括：MapReduce，Hadoop Utilites，YARN（Yet Another Resource Negotiator）和HDFS（Hadoop Distributed File System）。

MapReduce是一种提供平行计算的编程模型，具有位置感知计划（locality-aware scheduling），容错（fault-tolerance）,和可扩展性（scalability）;

MapReduce把数据处理分为两个阶段：Map阶段和Reduce阶段，处理流程如下：

（1）每一个分割文件对应一个map任务，mapper首先将输入数据转化为中间数据，然后将结果输出到一个循环的内存缓冲中（默认100M）；

（2）当这个缓冲中的数据接近阀值（默认80%），mapper开始将缓存中的内容写入本地磁盘的一个文件，但在数据写入之前，mapper将数据分成几个写入区，写入区的数据量对应于reducer的数量（或reduce task数量）；同时，在数据分区期间，数据结果默认以key排序。

（3）在数据写入磁盘的同时，当完成在缓存中写入数据时，这个map任务被阻塞，直到缓存中的内容全部被清空。

（4）一旦mapper完成输出，reducer或reduce task（负责将相同key的中间结果收缩到一个更小的结果集）开始从mapper中抓取一个特定分区数据，这种将mapper的输出结果转换为reducer的输入称之为数据洗牌（data shuffling）,即all-map-to-all-reduce personalized communication, Hadoop使用自己的算法实现了这种数据洗牌。

（5）洗牌一旦完成，reducer开始融合（merge）这些分区，然后reduce函数被调用处理这些融合的数据；

（6）最后，reduce函数将结果输出到HDFS上。

YARN在Hadoop里是一个集群资源管理框架，它包括两个主要的守护线程：一个计划job和task的管理器，即在集群之间分配资源；启动和监视容器的节点管理器；一个容器对应一个JVM实例，每个JVM实例为应用或tasks分配一定CPU、内存和其它资源；

HDFS是一个存储大数据的分布式文件系统，在分布式的数据块之间建立逻辑关系；它从应用数据中分离出文件系统元数据，将元数据存储在主节点（Name Node）,应用数据存储在数据节点上（Data Node），并且HDFS在集群的节点上相互复制一定重复数量的数据块以提高系统的可靠性（以防节点的失败而导致应用不可用）。

Hadoop被认为是可靠的、可扩展的、可容错的，MapReduce虽然适合于处理大数据的应用，但对于不合适与迭代算法和低延迟的应用，因为MapReduce为了提供容错而依赖于持久化的数据，在运行分析查询之前，需将整个数据集加载到系统，这就是为什么Spark诞生的原因。

Spark也是一种处理大数据应用的集群计算框架和引擎，它在内存里构建了一个分布式的对象集合，即Resilent Distrubted Dataset（RDD），然后对这些数据集执行各类平行计算。Spark在迭代机器学习任务中的性能是MapReduce的10倍以上，甚至在某些迭代应用超过20倍。

Spark主要适用于实时数据流处理和迭代算法应用，RDDs是一种分布式内存抽象；每一个RDD是跨集群并可进行平行计算的、只读的、被分区的元素集合，这种RDD的不可变性以为着修改任何一个RDD将创建一个新的RDD，且容易进行缓存和共享。当对RDD进行操作时，分区的数量决定了平行计算的层级；

RDDs可通过两种方式创建，从外部资源加载数据集，如HDFS，或在一个驱动程序（drive program）里对数据集进行并行分割（parallizing）。

RDDs的操作有两种类型：转换（transformations）和动作（actions）, 转换即将一个RDD转化为另个一个RDD，但动作是基于RDD计算出结果并将其返回到驱动程序，最后写入外部的存储资源上。

猜你喜欢