Review HDFS 副本存放机制

HDFS 副本存放机制


第一份数据来源于客户端


第二份存放的位置是与第一个副本在相同机架上,且不在同一个节点,按照一定的规则(cpu 内存 IO是用率,和硬
盘剩余容量)找到一个节点存放


第三个副本的存放位置是与第一第二份数据副本不在同一个机架上,且逻辑与存放副本1和2的机架距离最近的机上
按照一定的规则(cpu 内存 IO是用率,和硬盘剩余容量)找到一个节点进行存放
 

图解:


DataNode作用


1、执行数据的读写(响应的是客户端)


2、周期性向NameNode做汇报(数据块的信息、校验和)


若datanode 10分钟没有向NameNode做汇报,表示已丢失(已宕机)
心跳周期 3秒


3、执行流水线的复制(一点一点复制)
 

图解 :


机架感知


实际上需要工程师收到创建一个脚本(python sh ),脚本中记录主机IP和交换机的对应关系。
配置的位置是core-site.xml 最终添加如下配置
topology.script.file.name
/home/bigdata/apps/hadoop/etc/hadoop/RackAware.py
 

RPC 指的是 远程过程调用。是集群中多个组件、多个模块进行数据通信的一 种方式。

发布了231 篇原创文章 · 获赞 300 · 访问量 30万+

猜你喜欢

转载自blog.csdn.net/bbvjx1314/article/details/105444079