Hadoop深入学习:重温

        从今天起,鄙人开始重温重去年九月份开始学习的Hadoop,并将之形成文字。一方面重温Hadoop的一些知识点,查漏补缺,加深印象;另一方面也希望能和他人有一些交流,由于本人能力有限,由理解不对或表达不清之处,望“内功深厚者”加以指点,当然但若能对初学者能由些许帮助,鄙人将十分荣幸!
        当然,借此写博客的机会,也希望对Hadoop做更深入的理解,并一直专研下去!
        今天,我们正被数据包围,对于很多公司特别是电商而言,数据是其很核心的资产,每天都会产生大量点击,每一次点击都产生数据。那么,这些公司是如何基于处理这些数据?如何使用这些数据呢?有如何从这些数据中获取对自己有用的信息呢?这就涉及到大数据处理和数据挖掘,也就不能不设计到Hadoop。
       
        这里指的“Hadoop”指的是Hadoop ecosystem生态系统,包括之上的Hive,Hbase,Pig等,已经被广泛应用在当前的生产和生活中,并且是事实上的大数据处理的行业标准!
        下图是Hadoop生态系统的示意图:
         那么什么是Hadoop呢?
         首先 Hadoop是一个Apache基金会下的一个开源项目,一个分布式计算平台,以Hadoop分布式文件系统HDFS和MapReduce分布式计算框架为核心,为用户提供了底层细节透明的分布式基础设施。HDFS提供高容错和高伸缩的特性,允许用户将构建一个廉价的分布式系统;而MapRecue则允许用户在不了解分布式底层细节的情况下比较容易的开发并写并行的分布式应用程序,专注于直接要处理的业务,充分利用大规模的计算资源,来解决之前无法解决活只能在高性能计算集群上才能解决的问题。

        Hadoop处理海量数据,有如下优点:
        1、健壮
        其故障检测和制动恢复特性,可以很容易的处理通用计算平台上的硬件失效。
        2、弹性
        可以动态的增删集群节点:通过增加集群节点,就可以线性的扩展计算性能已处理更大的数据集;同时在负载下降时,通过减少节点,以高效使用计算资源(不浪费多余的资源)。
        3、简单
        当然这是相对于传统的分布式集群而言的,Hadoop的MapReduce框架允许用户快速编写出高效的并行分布式处理的代码。

        之前我们已经学习了一些Hbase和Hive的相关知识,从今天开始,我们将从新开始温故Hadoop。
        
        
       

猜你喜欢

转载自flyingdutchman.iteye.com/blog/1874402