Hadoop技术原理总结

转载自：
http://www.360doc.com/content/14/0107/20/15109633_343416433.shtml

1、Hadoop运行原理
      Hadoop是一个开源的可运行于大规模集群上的分布式并行编程框架，其最核心的设计包括：MapReduce和HDFS。基于 Hadoop,你可以轻松地编写可处理海量数据的分布式并行程序，并将其运行于由成百上千个结点组成的大规模计算机集群上。
      基于MapReduce计算模型编写分布式并行程序相对简单，程序员的主要工作就是设计实现Map和Reduce类，其它的并行编程中的种种复杂问题，如分布式存储，工作调度，负载平衡，容错处理，网络通信等，均由 MapReduce框架和HDFS文件系统负责处理，程序员完全不用操心。换句话说程序员只需要关心自己的业务逻辑即可，不必关心底层的通信机制等问题，即可编写出复杂高效的并行程序。如果说分布式并行编程的难度足以让普通程序员望而生畏的话，开源的 Hadoop的出现极大的降低了它的门槛。
2、Mapreduce原理
       简单的说：MapReduce框架的核心步骤主要分两部分：Map和Reduce。当你向MapReduce框架提交一个计算作业时，它会首先把计算作业拆分成若干个Map任务，然后分配到不同的节点上去执行，每一个Map任务处理输入数据中的一部分，当Map任务完成后，它会生成一些中间文件，这些中间文件将会作为Reduce任务的输入数据。Reduce对数据做进一步处理之后，输出最终结果。
      MapReduce是Hadoop的核心技术之一，为分布式计算的程序设计提供了良好的编程接口，并且屏蔽了底层通信原理，使得程序员只需关心业务逻辑本事，就可轻易的编写出基于集群的分布式并行程序。从它名字上来看，大致可以看出个两个动词Map和Reduce，“Map（展开）”就是将一个任务分解成为多个子任务并行的执行，“Reduce”就是将分解后多任务处理的结果汇总起来，得出最后的分析结果并输出。
       适合用 MapReduce来处理的数据集(或任务)有一个基本要求：待处理的数据集可以分解成许多小的数据集，而且每一个小数据集都可以完全并行地进行处理。
      Map-Reduce的处理过程主要涉及以下四个部分：
        ?Client进程：用于提交Map-reduce任务job；
       ?JobTracker进程：其为一个Java进程，其main class为JobTracker；
       ?TaskTracker进程：其为一个Java进程，其main class为TaskTracker；
       ?HDFS：Hadoop分布式文件系统，用于在各个进程间共享Job相关的文件；
     其中JobTracker进程作为主控，用于调度和管理其它的TaskTracker进程, JobTracker可以运行于集群中任一台计算机上，通常情况下配置JobTracker进程运行在NameNode节点之上。TaskTracker负责执行JobTracker进程分配给的任务，其必须运行于 DataNode 上，即 DataNode 既是数据存储结点，也是计算结点。 JobTracker将Map任务和Reduce任务分发给空闲的TaskTracker,让这些任务并行运行，并负责监控任务的运行情况。如果某一个 TaskTracker出故障了，JobTracker会将其负责的任务转交给另一个空闲的TaskTracker重新运行。
     本地计算-原理
      数据存储在哪一台计算机上，就由这台计算机进行这部分数据的计算，这样可以减少数据在网络上的传输，降低对网络带宽的需求。在Hadoop这样的基于集群的分布式并行系统中，计算结点可以很方便地扩充，而因它所能够提供的计算能力近乎是无限的，但是由是数据需要在不同的计算机之间流动，故网络带宽变成了瓶颈，是非常宝贵的，“本地计算”是最有效的一种节约网络带宽的手段，业界把这形容为“移动计算比移动数据更经济”。
3、HDFS存储的机制
       Hadoop的分布式文件系统 HDFS是建立在Linux文件系统之上的一个虚拟分布式文件系统，它由一个管理节点 ( NameNode )和N个数据节点 ( DataNode )组成，每个节点均是一台普通的计算机。在使用上同我们熟悉的单机上的文件系统非常类似，一样可以建目录，创建，复制，删除文件，查看文件内容等。但其底层实现上是把文件切割成Block（块），然后这些 Block分散地存储于不同的 DataNode 上，每个 Block还可以复制数份存储于不同的 DataNode上，达到容错容灾之目的。NameNode则是整个 HDFS的核心，它通过维护一些数据结构，记录了每一个文件被切割成了多少个 Block，这些 Block可以从哪些 DataNode中获得，各个 DataNode的状态等重要信息。
    HDFS的数据块
     每个磁盘都有默认的数据块大小,这是磁盘进行读写的基本单位.构建于单个磁盘之上的文件系统通过磁盘块来管理该文件系统中的块.该文件系统中的块一般为磁盘块的整数倍.磁盘块一般为512字节.HDFS也有块的概念,默认为64MB(一个map处理的数据大小).HDFS上的文件也被划分为块大小的多个分块,与其他文件系统不同的是,HDFS中小于一个块大小的文件不会占据整个块的空间.
      任务粒度——数据切片（Splits）
      把原始大数据集切割成小数据集时，通常让小数据集小于或等于 HDFS中一个 Block的大小(缺省是 64M)，这样能够保证一个小数据集位于一台计算机上，便于本地计算。有 M个小数据集待处理，就启动 M个 Map任务，注意这 M个 Map任务分布于 N台计算机上并行运行，Reduce任务的数量 R则可由用户指定。
    HDFS用块存储带来的第一个明显的好处一个文件的大小可以大于网络中任意一个磁盘的容量,数据块可以利用磁盘中任意一个磁盘进行存储.第二个简化了系统的设计,将控制单元设置为块,可简化存储管理,计算单个磁盘能存储多少块就相对容易.同时也消除了对元数据的顾虑,如权限信息,可以由其他系统单独管理。
4、举一个简单的例子说明MapReduce的运行机制
       以计算一个文本文件中每个单词出现的次数的程序为例，<k1,v1>可以是 <行在文件中的偏移位置,文件中的一行>，经 Map函数映射之后，形成一批中间结果 <单词，出现次数>,而 Reduce函数则可以对中间结果进行处理，将相同单词的出现次数进行累加，得到每个单词的总的出现次数。

http://www.360doc.com/content/14/0221/19/15913317_354568208.shtml

Hadoop技术原理总结

猜你喜欢