一、HDFS 架构整体概述

HDFS 是 Hadoop Distribute File System 的简称，意为：Hadoop 分布式文件系统。HDFS 是Hadoop 核心组件之一，作为大数据生态圈最底层的分布式存储服务而存在。HDFS 解决的问题就是大数据如何存储，它是横跨在多台计算机上的文件存储系统并且具有高度的容错能力。

HDFS 集群遵循主从架构（master/slave）。通常包括一个主节点和多个从节点。在内部，文件分块存储，每个块根据复制因子存储在不同的从节点计算机上形成备份。主节点存储和管理文件系统 namespace，即有关文件块的信息，例如块位置，权限等；从节点存储文件的数据块。主从各司其职，互相配合，共同对外提供分布式文件存储服务。当然内部细节对于用户来说是透明的。

二、HDFS 集群角色介绍

2.1 整体概述

HDFS 遵循主从架构。NameNode 是主节点，负责存储和管理文件系统元数据信息，包括 namespace 目录结构、文件块位置信息等； DataNode 是从节点，负责存储文件具体的数据块。两种角色各司其职，共同协调完成分布式的文件存储服务。SecondaryNameNode 是主角色的辅助角色，帮助主角色进行元数据的合并。

2.2 主角色：namenode

NameNode 是 Hadoop 分布式文件系统的核心，架构中的主角色。NameNode 维护和管理文件系统元数据，包括名称空间目录树结构、文件和块的位置信息、访问权限等信息。基于此，NameNode 成为了访问 HDFS 的唯一入口。

NameNode 内部通过内存和磁盘文件两种方式管理元数据。其中磁盘上的元数据文件包括Fsimage 内存元数据镜像文件和 edits log（Journal）编辑日志。在 Hadoop2 之前，NameNode 是单点故障。Hadoop 2 中引入的高可用性。Hadoop 群集体系结构允许在群集中以热备配置运行两个或多个 NameNode。

2.3 从角色：datanode

DataNode 是 Hadoop HDFS 中的从角色，负责具体的数据块存储。DataNode 数量决定了HDFS 集群的整体数据存储能力。通过和 NameNode 配合维护着数据块。

2.4 主角色辅助角色： secondarynamenode

除了 DataNode 和 NameNode 之外，还有另一个守护进程，它称为 secondary NameNode。充当 NameNode 的辅助节点，但不能替代 NameNode。

当 NameNode 启动时，NameNode 合并 Fsimage 和 edits log 文件以还原当前文件系统名称空间。如果 edits log 过大不利于加载，Secondary NameNode 就辅助 NameNode 从NameNode 下载 Fsimage 文件和 edits log 文件进行合并。