大数据开发实战：Spark Streaming流计算开发

　　　　　　Storm以及离线数据平台的MapReduce和Hive构成了Hadoop生态对实时和离线数据处理的一套完整处理解决方案。除了此套解决方案之外，还有一种非常流行的而且完整的离线和实时数据处理方案。

　　　　　　这种方案就是Spark。Spark本质上是对Hadoop特别是MapReduce的补充、优化和完善，尤其是数据处理速度、易用性、迭代计算和复杂数据分析等方面。

　　　　　　Spark Streaming 作为Spark整体解决方案中实时数据处理部分，本质上仍然是基于Spark的弹性分布式数据集（Resilient Distributed Datasets ：RDD）概念。Spark Streaming将源头数据划分为很小的批，

　　　　并以类似于离线批的方式来处理这部分微批数据。

　　　　　　相对于Storm这种原生的实时处理框架，Spark Streaming基于微批的的方案带来了吞吐量的提升，但是也导致了数据处理延迟的增加---基于Spark Streaming实时数据处理方案的数据延迟通常在秒级甚至分钟级。

　　　　　　Spark诞生于美国伯克利大学的AMPLab,它最初属于伯克利大学的研究性项目，与2010年正式开源，于2013年成为Apache基金项目，冰雨2014年成为Apache基金的顶级项目。

　　　　　　Spark用了不到5年的时间就成了Apache的顶级项目，目前已被国内外的众多互联网公司使用，包括Amazon、EBay、淘宝、腾讯等。

　　　　　　Spark的流行和它解决了Hadoop的很多不足密不可分。

　　　　　　传统Hadoop基于MapReduce的方案适用于大多数的离线批处理场景，但是对于实时查询、迭代计算等场景非常不适合，这是有其内在局限决定的。

　　　　　　1、MapReduce只提供Map和Reduce两个操作，抽象程度低，但是复杂的计算通常需要很多操作，而且操作之间有复杂的依赖关系。

　　　　　　2、MapReduce的中间处理结果是放在HDFS文件系统中的，每次的落地和读取都消耗大量的时间和资源。

　　　　　　3、当然，MapReduce也不支持高级数据处理API、DAG（有向五环图）计算、迭代计算等。

　　　　　　Spark则较好地解决了上述这些问题。

　　　　　　1、Spark通过引入弹性分布式数据集（Resilient Distributed Datasets：RDD）以及RDD丰富的动作操作API，非常好地支持了DGA的计算和迭代计算。

　　　　　　2、Spark通过内存计算和缓存数据非常好地支持了迭代计算和DAG计算的数据共享、减少了数据读取的IO开销、大大提高了数据处理速度。

　　　　　　3、Spark为批处理（Spark Core）、流式处理（Spark Streaming）、交互分析（Spark SQL）、机器学习（MLLib）和图计算（GraphX）提供了一个同一的平台和API，非常便于使用。