1.学习Hadoop

   

一、什么是Hadoop

 Hadoop是一个开源的Apache下的软件。它更容易开发和处理大规模数据的软件平台。 分为两部分: HDFS(分布式文件系统) MapReduce 提供的云计算平台基础架构
二、     Hadoop优点:
          1.可扩展性 : 部署集群好后,不用重新部署,只要直接增加节点(例如:加机器)就可以进入集群。
          2.经济性     :   不说了。
          3.可靠性    
          4.高效性      : 运算能力比较好
  三、  Hadoop架构:
             

PIG   HIVE      HBASE   ZOOKEEPER
    MapReduce
HDFS

     1、pig:    是有一套自己的源于,不用考虑自己写MapReduce程序

     2、HIVE:    是一个数据仓库,它提供类SQL,(把HADOOP的文件映射成表)

     3、Hbase  是一个分布式数据库。

     4、zookeeper 是一个分布式的协调框架。

     5、hdfs是一个运行在普通的硬件上的分布式文件系统

       特点:高容错性

              它可以部署在廉价的硬件上

              高吞吐量(可以并行的去读写数据)

   6、 mapReduce

            分布式的计算机模型

            map用于处理数据

            reduce 用于合并结果

   

猜你喜欢

转载自sunhaitao.iteye.com/blog/1838512