HDFS Block块大小探讨

其他 2020-02-14 11:16:04 阅读次数: 0

在HDFS中存储数据是以块（block）的形式存放在DataNode中的，块（block）的大小可以通过设置dfs.blocksize来实现；在Hadoop2.x的版本中，文件块的默认大小是128M，老版本中默认是64M；寻址时间：HDFS中找到目标文件块（block）所需要的时间。原理：

文件块越大，寻址时间越短，但磁盘传输时间越长
文件块越小，寻址时间越长，但磁盘传输时间越短

HDFS中block不能设置太大，也不能太小

如果块设置过大，一方面，从磁盘传输数据的时间会明显大于寻址时间，导致程序在处理这块数据时，变得非常慢；另一方面，mapreduce中的map任务通常一次只处理一个块中的数据，如果块过大运行速度也会很慢。
如果块设置过小，一方面存放大量小文件会占用NameNode中大量内存来存储元数据，而NameNode的内存是有限的，不可取；另一方面文件块过小，寻址时间增大，导致程序一直在找block的开始位置。

因而，块适当设置大一些，减少寻址时间，那么传输一个由多个块组成的文件的时间主要取决于磁盘的传输速率。

HDFS中block大小为何为128M？

HDFS中平均寻址时间大概为10ms
经过前人的大量测试发现，寻址时间为传输时间的1%时，为最佳状态；

所以最佳传输时间为10ms/0.01=1000ms=1s
目前磁盘的传输速率普遍为100MB/s；

计算出最佳block大小：100MB/s x 1s = 100MB

所以设定block大小为128MB。

实际在工业生产中，磁盘传输速率为200MB/s时，一般设定block大小为256MB；磁盘传输速率为400MB/s时，一般设定block大小为512MB。

K. Bob

发布了138 篇原创文章 · 获赞 45 · 访问量 8万+

私信关注

猜你喜欢

转载自blog.csdn.net/ThreeAspects/article/details/104294513

HDFS Block块大小探讨

Hdfs block数据块大小的设置规则

HDFS文件块（block）大小设定依据

HDFS中block的大小

HDFS 文件块大小

HDFS 块大小设置

HDFS文件系统Block块

HDFS中的数据块(Block)

Hadoop HDFS 文件块大小

HDFS block块的副本存放策略

HDFS block块损坏以及修复

HDFS中Block size的默认大小

【Hadoop学习之HDFS】_05HDFS文件块大小

hdfs为什么要用block以及block大小的设置

改变hdfs文件系统存储的块大小

HDFS文件块大小(面试重点)

HDFS块大小的计算与设计规则

HDFS 冗余数据块（Block）的自动删除

[Hadoop shell命令]--处理hdfs上错误的block块并修复

hdfs的架构以及block块和副本机制

Hadoop hdfs block 状态

hdfs丢失block处理

Split ，HDFS Block

HDFS中的block

hdfs的block损坏

(转)HDFS里Datanode上block大小的设置问题

【查看修复HDFS中丢失的块】org.apache.hadoop.hdfs.BlockMissingException: Could not obtain block: BP

hdfs fsck命令查看HDFS文件对应的文件块信息(Block)和位置信息(Locations)

hdfs深入：03、hdfs的架构以及副本机制和block块存储

hdfs无效块修复

今日推荐

美国拟限制 AI 大模型出口中国和俄罗斯

苹果将与 OpenAI 达成协议，将 ChatGPT 应用于 iPhone

openKylin 社区生态委员会第六次会议圆满召开

阿里云正式发布通义千问 2.5

Python 3.13 发布首个 Beta：实验性自由线程模式和 JIT、改进交互式解释器

Stack Overflow 拿我的代码去训练 AI 大模型，还封了我的账号

Pop!_OS 的 COSMIC 桌面完成 App Store 上架工作

报告：Django 仍然是 74% 开发者的首选

《2024 年一季度互联网投融资运行情况》研究报告

15 年前上了“FFmpeg 耻辱柱”，今天他还得谢谢咱——腾讯QQPlayer一雪前耻？

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

GCC 14.1 发布

周排行

curl的POST请求，封装方法

8.1.1. Integer Types

Java基础 Day05(个人复习整理)

Python - Django - 中间件 process_exception

小L的试卷

【Shell编程】（函数）判断用户是否存在

python(css样式)

spring ant path 匹配原则 - 【笔记】

《JavaScript与JScript从入门到精通》(美)James.Jaworski.中译本.扫描版.pdf

Eclipse运行带参数的java程序

每日归档

更多

2024-05-12(0)

2024-05-11(38)

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)

2024-05-03(19)