Hadoop自学

1.什么是Hadoop?

Hadoop 是耳熟能详的卓越开源分布式文件存储及处理框架,它能让用户轻
松地开发处理海量数据的应用程序,其主要优点有:
高可靠性:Hadoop 按位存储和处理数据的能力值得人们信赖。
高扩展性:Hadoop 在可用的计算机集簇间分配数据并完成计算任务的,这
些集簇可以方便地扩展到数以干计的节点中。
高效性:Hadoop 能够在节点之间动态地移动数据,并保证各个节点的动态
平衡,因此处理速度非常快。
高容错性:Hadoop 自动保存数据的多个副本,并自动将失败任务重分配。
低成本:与一体机、商用数据仓库比,Hadoop 开源软件的成本更低。

2.Hadoop两个版本?

Hadoop 1.0 由 HDFS 和 MapReduce
两个系统组成,存在以下几个缺点:


静态资源配置: :即每个节点实现配置好可用的 slot 总数,这些 slot数目一
旦启动后无法再动态修改;


资源无法共享: :将 slot分为 Map slot 和 Reduce slot 两种,且不允许共享;

资源划分粒度过大: :基于无类别 slot 的资源划分方法的划分粒度仍过于粗
糙,往往会造成节点资源利用率过高或者过低;


无 有效资源隔离机制: :采用基于 jvm 的资源隔离机制,过于粗糙,很多资
源,如 CPU无法进行隔离,这会造成同一个节点上的任务之间干扰严重

Hadoop 2.0由 HDFS、MapReduce和 YARN 三个系统组成,其中 YARN是
一个资源管理系统,负责集群资源管理和调度,2.0中 YAR 允许每个节点
(NodeManager)配置可用的 CPU和内存资源总量,而中央调度器则会根据这
些资源总量分配给应用程序。

扫描二维码关注公众号,回复: 11508086 查看本文章

3.什么是HDFS?

HDFS(Hadoop Distributed File System) ,Hadoop 上的分布式文件系统,适
合 PB级大量数据的存储,扩展性强,容错性高(默认 3 副本)。

如图所示 HDFS 是 Master/Slave结构,有 NameNode、Secondary
NameNode、DataNode 这几个角色,理解其架构及工作原理需要弄清的概念:

NameNode :Master节点,管理数据块映射;处理客户端的读写请求;配
置副本策略;管理 HDFS 的名称空间;

Secondary NameNode :分担 namenode工作量;是 NameNode的冷备份;
合并 fsimage和 fsedits 然后再发给 namenode。


DataNode :Slave节点,负责存储 client 发来的数据块 block;执行数据块
的读写操作。

冷热备份:
热备份:b是 a的热备份,如果 a坏掉。那么 b马上运行代替 a的工作。
冷备份:b是 a的冷备份,如果 a坏掉。那么 b不能马上代替 a工作。但是
b 上存储 a的一些信息,减少 a坏掉之后的损失。

Fsimage :元数据镜像文件(文件系统的目录树。)


edits :元数据的操作日志(针对文件系统做的修改操作记录)


机架:HDFS 集群由分布在多个机架上的大量 DataNode组成,不同机架之
间节点通过交换机通信,HDFS 通过机架感知策略,使 NameNode能够确定每
个 DataNode所属的机架 ID,使用副本存放策略,来改进数据的可靠性、可用
性和网络带宽的利用率。


数据块(block) :HDFS最基本存储单元,默认 128M,用户可自行设置。


元数据:指 HDFS 文件系统中,文件和目录的属性信息。HDFS 实现时采
用镜像文件(Fsimage) + 日志文件(EditLog)的备份机制。文件的镜像文件
中内容包括:修改时间、访问时间、数据块大小、组成文件的数据块的存储位
置信息。目录的镜像文件内容包括:修改时间、访问控制权限等信息。日志文
件记录的是:HDFS 的更新操作。NameNode 启动的时候,会将镜像文件和日志
文件的内容在内存中合并。把内存中的元数据更新到最新状态。

猜你喜欢

转载自blog.csdn.net/niuxikun/article/details/107714759