Hadoop学习-days4-Hadoop简介

1. 什么是Hadoop

    1)Hadoop是一个由Apache基金会所开发的分布式系统基础架构
    2)主要解决,海量数据的存储和海量数据的分析计算问题。

 

2. Hadoop三大发行版本

    Apache Cloudera Hortonworks

    1)Apache是最原始版本,适合入门学习

    2)Cloudera CDH 企业使用最多 兼容性,安全性,稳定性最好

    3)Hortonworks 文档较好

 

3. Hadoop的优势

    1)高可靠性:多个数据副本,节点故障可以重新分布处理

    2)高扩展性:集群间分配任务数据,方便扩展

    3)高效性:并行工作,任务处理速度快

    4)高容错性:自动保存副本数据

 

4. Hadoop的组成

    1)HDFS 高可靠、高吞吐量的分布式存储系统

    2)MapReduce 分布式离线并行计算框架

    3)YARN 任务调度和资源管理

    4)Common:支持其他模块的工具

 

5. HDFS框架

    1)Namenode:存储文件的元数据,每个文件的块列表和块所在的DataNode

            元数据:文件名 文件目录结构 文件属性(生成时间,副本数,文件权限)

    2)Secondary Namenode:用来监控HDFS状态的辅助后台程序,每隔一段时间获取HDFS元数据快照

    3)DataNode:在本地文件系统中存储文件块数据,以及块数据的校验和

 

6. YARN框架

    1)ResourceManager:资源分配和调度,处理客户端请求,启动/监控ApplicationMaster,监控NodeManager。(所有节点间的)

    2)NodeManager:单个节点上的资源管理,处理RM的命令,处理AM的命令

    3)ApplicationMaster:数据切分,为应用程序申请资源,并分配给内部任务,任务监控和容错

    4)Container:对任务运行环境进行抽象,封装CPU、内存等多维资源以及环境变量、启动命令等任务运行信息

 

7. MapReduce框架

    1)Map阶段:并行处理

    2)Reduce阶段:对Map结果进行汇总

 

8. 大数据技术生态体系


 

(此图来源于网络)

猜你喜欢

转载自blog.csdn.net/canglan211/article/details/80812094