Hadoop自学

1.什么是Hadoop？

Hadoop 是耳熟能详的卓越开源分布式文件存储及处理框架，它能让用户轻
松地开发处理海量数据的应用程序，其主要优点有：
高可靠性：Hadoop 按位存储和处理数据的能力值得人们信赖。
高扩展性：Hadoop 在可用的计算机集簇间分配数据并完成计算任务的，这
些集簇可以方便地扩展到数以干计的节点中。
高效性：Hadoop 能够在节点之间动态地移动数据，并保证各个节点的动态
平衡，因此处理速度非常快。
高容错性：Hadoop 自动保存数据的多个副本，并自动将失败任务重分配。
低成本：与一体机、商用数据仓库比，Hadoop 开源软件的成本更低。

2.Hadoop两个版本？

Hadoop 1.0 由 HDFS 和 MapReduce
两个系统组成，存在以下几个缺点：

静态资源配置：：即每个节点实现配置好可用的 slot 总数，这些 slot数目一
旦启动后无法再动态修改；

资源无法共享：：将 slot分为 Map slot 和 Reduce slot 两种，且不允许共享；

资源划分粒度过大：：基于无类别 slot 的资源划分方法的划分粒度仍过于粗
糙，往往会造成节点资源利用率过高或者过低；

无有效资源隔离机制：：采用基于 jvm 的资源隔离机制，过于粗糙，很多资
源，如 CPU无法进行隔离，这会造成同一个节点上的任务之间干扰严重

Hadoop 2.0由 HDFS、MapReduce和 YARN 三个系统组成，其中 YARN是
一个资源管理系统，负责集群资源管理和调度，2.0中 YAR 允许每个节点
（NodeManager）配置可用的 CPU和内存资源总量，而中央调度器则会根据这
些资源总量分配给应用程序。

扫描二维码关注公众号，回复： 11508086 查看本文章

3.什么是HDFS？

HDFS(Hadoop Distributed File System) ，Hadoop 上的分布式文件系统，适
合 PB级大量数据的存储，扩展性强，容错性高（默认 3 副本）。

如图所示 HDFS 是 Master/Slave结构，有 NameNode、Secondary
NameNode、DataNode 这几个角色，理解其架构及工作原理需要弄清的概念：

NameNode ：Master节点，管理数据块映射；处理客户端的读写请求；配
置副本策略；管理 HDFS 的名称空间；

Secondary NameNode ：分担 namenode工作量；是 NameNode的冷备份；
合并 fsimage和 fsedits 然后再发给 namenode。

DataNode ：Slave节点，负责存储 client 发来的数据块 block；执行数据块
的读写操作。

冷热备份：
热备份：b是 a的热备份，如果 a坏掉。那么 b马上运行代替 a的工作。
冷备份：b是 a的冷备份，如果 a坏掉。那么 b不能马上代替 a工作。但是
b 上存储 a的一些信息，减少 a坏掉之后的损失。

Fsimage ：元数据镜像文件（文件系统的目录树。）

edits ：元数据的操作日志（针对文件系统做的修改操作记录）

机架：HDFS 集群由分布在多个机架上的大量 DataNode组成，不同机架之
间节点通过交换机通信，HDFS 通过机架感知策略，使 NameNode能够确定每
个 DataNode所属的机架 ID，使用副本存放策略，来改进数据的可靠性、可用
性和网络带宽的利用率。

数据块(block) ：HDFS最基本存储单元，默认 128M，用户可自行设置。

元数据：指 HDFS 文件系统中，文件和目录的属性信息。HDFS 实现时采
用镜像文件（Fsimage） + 日志文件（EditLog）的备份机制。文件的镜像文件
中内容包括：修改时间、访问时间、数据块大小、组成文件的数据块的存储位
置信息。目录的镜像文件内容包括：修改时间、访问控制权限等信息。日志文
件记录的是：HDFS 的更新操作。NameNode 启动的时候，会将镜像文件和日志
文件的内容在内存中合并。把内存中的元数据更新到最新状态。

猜你喜欢