Hadoop入门（一）——背景介绍

一、背景

1、起源

MapReduce编程模型的思想来源于函数式编程语言Lisp，由Google公司于2004年提出并首先应用于大型集群。同时，Google也发表了GFS、BigTable等底层系统以应用MapReduce模型。在2007年，Google’s MapReduce Programming Model-Revisted论文发表，进一步详细介绍了Google MapReduce模型以及Sazwall并行处理海量数据分析语言。Google公司以MapReduce作为基石，逐步发展成为全球互联网企业的领头羊。

2、项目起源和发展

Hadoop作为Apache基金会资助的开源项目，由Doug Cutting带领的团队进行开发，基于Lucene和Nutch等开源项目，实现了Google的GFS和Hadoop能够稳定运行在20个节点的集群；2006年1月，Doug Cutting加入雅虎公司，同年2月Apache Hadoop项目正式支持HDFS和MapReduce的独立开发。同时，新兴公司Cloudera为Hadoop提供了商业支持，帮助企业实现标准化安装，并志愿贡献社区。Hadoop的最新版本是0.21.0，说明其还在不断完善发展之中。

二、Hadoop基础原理

1、定义

Hadoop原来是Apache Lucene下的一个子项目，它最初是从Nutch项目中分离出来的专门负责分布式存储以及分布式运算的项目。简单地说来，Hadoop是一个可以更容易开发和运行处理大规模数据的软件平台。

2、组成

Hadoop由分布式存储HDFS和分布式计算MapReduce两部分组成。HDFS是一个master/slave的结构，就通常的部署来说，在master上只运行一个Namenode，而在每一个slave上运行一个Datanode。MapReduce是Google的一项重要技术，它是一个编程模型，用以进行大数据量的计算。MapReduce的名字源于这个模型中的两项核心操作：Map和Reduce。Map是把一组数据一对一的映射为另外的一组数据，Reduce是对一组数据进行归约，映射和归约的规则都由一个函数指定。

三、国内外应用

1、国外应用

2008年2月，雅虎宣布搭建出世界上最大的基于Hadoop的集群系统—Yahoo! Search Webmap，另外还被广泛应用到雅虎的日志分析、广告计算、科研实验中；Amazon的搜索门户A9.com中的商品搜索的索引生成就是基于Hadoop完成的；互联网电台和音乐社区网站Last.fm使用Hadoop集群运行日志分析、A/B测试评价、AdHoc处理和图表生成等日常作业；著名SNS网站Facebook用Hadoop构建了整个网站的数据仓库，它目前有320多台机器进行网站的日志分析和数据挖掘。 UC Berkeley等著名高校也对Hadoop进行应用和研究，以提高其整体性能，包括Matei Zaharia等人改进了Hadoop的推测式执行技术并发表了Improving MapReduce Performance in Heterogeneous Environment；Tyson Condie等人改进了MapReduce体系，允许数据在操作之间用管道传送，开发了Hadoop Online Prototype（HOP）系统，并发表了MapReduce Online。

2、国内应用

2008年之后，国内应用和研究Hadoop的企业也越来越多，包括淘宝、百度、腾讯、网易、金山等。淘宝是国内最先使用Hadoop的公司之一；百度在Hadoop上进行广泛应用并对它进行改进和调整，同时赞助了HyperTable的开发。总之，互联网企业是Hadoop在国内的主要使用力量。同样的，很多科研院所也投入到Hadoop的应用和研究中，包括中科院、清华大学、浙江大学和华中科技大学等。

四、文档说明

1、来源

该文档在编写的过程中添加了hadoop自带的中文说明文档，同时也借鉴了网上一些朋友编写资料。主要目的就是将这里信息汇总，方便查阅和推广。

2、环境

该文档中涉及的例子我采用的都是Linux操作系统、Apache发布的Hadoop版本0.20.2、JDK使用的是1.6，Hive使用的是0.5、HBase使用的是0.20.5

Hadoop入门（一）——背景介绍

猜你喜欢