Hadoop EC 踩坑：data block 缺失导致的 HDFS 传输速率下降 - 代码天地

Hadoop EC 踩坑：data block 缺失导致的 HDFS 传输速率下降

其他 2018-06-25 23:13:42 阅读次数: 2

环境：hadoop-3.0.2 + 11 机集群 + RS-6-3-1024K 的EC策略

状况：某天，往 HDFS 上日常 put 业务数据时，发现传输速率严重下降

分析：

检查集群发现，在之前的传输中，发生过个别 datanode 临时不可用的状况。
而由于 hadoop EC 机制，当失效 datanode 小于容忍值（这里是3），put 等传输任务仍然成功。但 hadoop 当时会报错，用于提示程序员，这个报错不会影响当此传输任务，故 put 等传输请求会返回成功。然后，缺失的 data block 会在出发 EC 恢复机制时被恢复。
缺失的 data block 何时恢复？EC恢复的触发机制是低优先的：
- 首先，恢复非常吃CPU和带宽，EC policy 引用的机器越多，这种消耗越大，因此，恢复任务会被执行于机器不忙碌的时候。
- 然后，据我发现，EC恢复机制的主动触发有两种，
  - A：碰它一下，比如 get 那个文件，那么这个文件的缺失的 data block 会立即恢复，但是，并不会立即全部恢复，实验只会立即恢复1个缺失的data block，剩下的会被安排在接下来的时间内陆续恢复，这个时间无法控制。之前说过，EC恢复消耗大，会被安排在机器空闲时。
  - B：强制全部立即恢复，在重启HDFS时执行。虽然强效，但实际HDFS很少选择重启，故这个方法选择性采用。

操作：尝试重启了HDFS，强制立即全部恢复所有丢失数据块。

结果：HDFS传输速率恢复。

结论：

无论在 hadoop ec 的官方文档中，还是在google等社区帖子中，都没有提到过EC的这种BUG。
所以，本文提到的这个HDFS速率 BUG 和 EC 策略的相关性待进一步考究，先mark在这里。
追究根本，还是 EC 对于恢复机制的高消耗带来的隐患，所以采纳 hadoop 的建议，要再一次考虑引入 ISL 编码的必要性。

　　

猜你喜欢

转载自www.cnblogs.com/PigeonNoir/p/9226759.html

Hadoop EC 踩坑：data block 缺失导致的 HDFS 传输速率下降

Hadoop hdfs block 状态

HADOOP HA 踩坑 - org.apache.hadoop.hdfs.qjournal.protocol.JournalNotFormattedException: Journal Storage Directory /mnt/data1/hadoop/dfs/journal/hdfscluster not formatted

How to fix missing block in Hadoop HDFS

Hadoop学习笔记5之HDFS Block

MapReduce 踩坑 - hadoop No FileSystem for scheme: file/hdfs

[Hadoop shell命令]--处理hdfs上错误的block块并修复

org.apache.hadoop.hdfs.BlockMissingException: Could not obtain block:

hadoop hdfs记录踩到的坑

【查看修复HDFS中丢失的块】org.apache.hadoop.hdfs.BlockMissingException: Could not obtain block: BP

hadoop block

MySQL Applier For Hadoop: Real time data export from MySQL to HDFS

spring data hadoop操作hdfs，生成avro文件并上传

Hadoop踩坑笔记

Hadoop编程踩坑

hadoop安装踩坑

hadoop 踩坑记

[hadoop 的坑] there is no HDFS_NAMENODE_USER defined

hdfs丢失block处理

Split ，HDFS Block

HDFS中的block

hdfs的block损坏

HDFS中block的大小

Hadoop-hdfs的设计理念，block，namenode，datanode启动过程，心跳机制，安全模式

Hadoop-HDFS-概述介绍（背景及定义、优缺点、组成架构、Block介绍）-连载中

ERROR org.apache.hadoop.hdfs.server.datanode.DataNode: Initialization failed for Block pool

hadoop的HDFS

Hadoop HDFS

Hadoop - HDFS

Hadoop ---- HDFS

今日推荐

基于大语言模型的开源知识库问答系统 MaxKB GitHub Star 数量突破 5,000 个！

美国拟限制 AI 大模型出口中国和俄罗斯

苹果将与 OpenAI 达成协议，将 ChatGPT 应用于 iPhone

openKylin 社区生态委员会第六次会议圆满召开

阿里云正式发布通义千问 2.5

Python 3.13 发布首个 Beta：实验性自由线程模式和 JIT、改进交互式解释器

Stack Overflow 拿我的代码去训练 AI 大模型，还封了我的账号

Pop!_OS 的 COSMIC 桌面完成 App Store 上架工作

报告：Django 仍然是 74% 开发者的首选

《2024 年一季度互联网投融资运行情况》研究报告

15 年前上了“FFmpeg 耻辱柱”，今天他还得谢谢咱——腾讯QQPlayer一雪前耻？

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

周排行

BPM为企业带来的实际利益

好程序员web前端分享css常用属性缩写

Java文件下载（excel）

css样式的动态添加及显示和隐藏等零碎用法

axios全局配置以及拦截器

使用Logstash来实时同步MySQL和log日志数据到ES

C++获取当前时间（年月日、时分秒、毫秒）

Odoo产品分析 (四) -- 工具板块(11) -- 网站即时聊天(1)

Java环境配置正确，但是java、javac、java -version均返回“不是内部或外部命令，也不是可运行的程序或批处理文件”？

01 官网下载各种CentOS教程（超详细版）

每日归档

更多

2024-05-14(0)

2024-05-13(18)

2024-05-12(0)

2024-05-11(38)

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)