Hadoop的组成部分有:
-
HDFS: 海量数据的存储系统
-
Map Reduce: 海量数据的计算系统(计算框架)
-
YARN: 集群资源管理(调度)的框架。
HDFS
管理者:NameNode
作用:负责管理,管理集群内各个节点。- 维护管理文件系统的元数据(指的是数据的存放位置或存放路径)或名字空间
- 负责确定指定的文件块到具体的Datanode结点的映射关系。
- 维护管理 DataNode上报的心跳信息
辅助管理者:SecondaryNameNode
作用:责辅助NameNode管理工作。工作者:DataNode
作用:负责工作,进行读写数据。 周期向NameNode汇报。
(1) 执行数据的读写(响应的是客户端)
(2) 周期性向NameNode做汇报(数据块的信息、校验和)
若datanode 10分钟没有向NameNode做汇报,表示已丢失(已宕机)
心跳周期 3秒
(3) 执行流水线的复制(将一份大数据切成若干份,一份一份的复制到三个节点,复制完一份下一份才开始复制)
MapReduce
- 是一个基于集群的高性能并行计算平台
- 是一个并行计算与运行软件框架
- 是一个并行程序设计模型与方法
Yarn
管理者:ResourceManager
工作者:NodeManager