【Hadoop学习】_01Hadoop的组成

一、Hadoop主要组件

  • HDFSHadoop分布式文件系统,主要用于数据存储
  • YARN是一种资源管理器,主要用于资源调度
  • MapReduce主要用于计算
  • Common是辅助工具

二、HDFS架构概述

  • NameNode(nn):存储文件的元数据,如文件名、目录结构、属性,以及每个文件的块列表和块所在的DataNode
  • DataNode(dn):存储文件块数据以及其校验和
  • Secondry NameNode(2nn):用来监控HDFS状态的辅助后台程序,每隔一段时间获取HDFS元数据的快照
    1. 辅助NameNode,分担其工作量,比如定期合并FsimageEdits,并推送给NameNode
    2. 在紧急情况下,可辅助恢复NameNode
    3. 注意:Secondry NameNode(2nn)并非NameNode的热备,当NameNode挂掉的时候,它并不能马上替换NameNode并提供服务。
  • 个人理解:NameNode类似索引,存储目录,DataNode存储相关数据,Secondry NameNode用于辅助NameNode

三、YARN架构概述

  • ResourceManager(RM):用于处理客户端请求;监控NodeManager;启动或监控ApplicationMaster;资源的分配与调度
  • NodeManager(NM):管理单个节点上的资源;处理来自ResourceManager的命令;处理来自ApplicationMaster的命令
  • ApplicationMaster(AM):负责数据切分;为应用程序申请资源并分配给内部的任务;任务的监控与容错
  • ContainerYARN中资源的抽象,它封装了某个节点上的多维度资源,如内存、CPU、磁盘、网络等
  • 目前重点理解ResourceManagerNodeManager

四、MapReduce架构概述

MapReduce将计算分为两个阶段:

  1. Map阶段:并行处理输入数据
  2. Reduce阶段:对Map结果进行汇总
发布了30 篇原创文章 · 获赞 30 · 访问量 789

猜你喜欢

转载自blog.csdn.net/qq_40947493/article/details/104122361
今日推荐