HBase_05_HBase优化

其他 2021-03-06 21:32:39 阅读次数: 0

5 HBase优化

5.1 预分区

默认情况下，一个表就是一个分区，但是可以提前规划好有多少分区。

怎样提前判断有多少分区呢？

①手动设定预分区

hbase> create 'staff1','info','partition1',SPLITS => ['1000','2000','3000','4000']

hadoop102Region的rowkey范围是：(-∞，1000)

hadoop104其中一个Region的范围是[1000, 2000）

。。。

hadoop104另一个Region的范围是[4000, +∞）

②生成16进制序列预分区

生成15个，8位的rowkey分区。

create 'staff2','info','partition2',{
    
    NUMREGIONS => 15, SPLITALGO => 'HexStringSplit'}

③按照文件中设置的规则预分区

可以自己在一个文件中定义分区规则

在HBase解压缩目录下创建split.txt文件内容如下：（这个文件在HBase路径，hbase shell也要在这个路径启动）

aaaa
bbbb
cccc
dddd

然后执行：

create 'staff3','partition3',SPLITS_FILE => 'split.txt'

如果把文件内容写成：

dddd
aaaa
ccc
bbbb

重新创建表：

create 'staff33','partition3',SPLITS_FILE => 'split.txt'

④使用JavaAPI创建预分区

//自定义算法，产生一系列Hash散列值存储在二维数组中
byte[][] splitKeys = 某个散列值函数
//创建HbaseAdmin实例
HBaseAdmin hAdmin = new HBaseAdmin(HbaseConfiguration.create());
//创建HTableDescriptor实例
HTableDescriptor tableDesc = new HTableDescriptor(tableName);
//通过HTableDescriptor实例和散列值二维数组创建带有预分区的Hbase表
hAdmin.createTable(tableDesc, splitKeys);

5.2 Rowkey设计

一条数据唯一的标识就是rowkey，类似于关系型数据库中的主键。在HBase中，rowkey是有序的。由于HBase存在分区的概念，所以当存储数据时，这条数据存储在哪个分区上，取决于rowkey处于哪个预分区内的区间内。

rowkey设计的目的

rowkey设计的主要目的就是，让数据均匀的分布于所有的Region中，在一定程度上防止数据倾斜。

生成随机数（散列）

原本rowKey为1001的，SHA1后变成：dd01903921ea24941c26a48f2cec24e0bb0e8cc7
原本rowKey为3001的，SHA1后变成：49042c54de64a1e9bf0b33e00245660ef92dc7bd
原本rowKey为5001的，SHA1后变成：7b61dec07e02c188790670af43e717f0f46e8913
在做此操作之前，一般我们会选择从数据集中抽取样本，来决定什么样的rowKey来Hash后作为每个分区的临界值。

字符串反转

20170524000001转成10000042507102
20170524000002转成20000042507102

字符串拼接

20170524000001_a12e
20170524000001_93i7

5.3 内存优化

HBase操作过程中需要大量的内存开销，毕竟Table是可以缓存在内存中的，但是不建议分配非常大的堆内存，因为GC过程持续太久会导致RegionServer处于长期不可用状态，一般16~36G内存就可以了，如果因为框架占用内存过高导致系统内存不足，框架一样会被系统服务拖死。

5.4 基础优化

Zookeeper会话超时时间

hbase-site.xml

属性：zookeeper.session.timeout

解释：默认值为90000毫秒（90s）。当某个RegionServer挂掉，90s之后Master才能察觉到。可适当减小此值，以加快Master响应，可调整至600000毫秒。

设置RPC监听数量

hbase-site.xml

属性：hbase.regionserver.handler.count

解释：默认值为30，用于指定RPC监听的数量，可以根据客户端的请求数进行调整，读写请求较多时，增加此值。

手动控制Major Compaction

hbase-site.xml

属性：hbase.hregion.majorcompaction

解释：默认值：604800000秒（7天）， Major Compaction的周期，若关闭自动Major Compaction，可将其设为0

优化HStore文件大小

hbase-site.xml

属性：hbase.hregion.max.filesize

解释：默认值10737418240（10GB），如果需要运行HBase的MR任务，可以减小此值，因为一个region对应一个map任务，如果单个region过大，会导致map任务执行时间过长。该值的意思就是，如果HFile的大小达到这个数值，则这个region会被切分为两个Hfile。

优化HBase客户端缓存

hbase-site.xml

属性：hbase.client.write.buffer

解释：默认值2097152bytes（2M）用于指定HBase客户端缓存，增大该值可以减少RPC调用次数，但是会消耗更多内存，反之则反之。一般我们需要设定一定的缓存大小，以达到减少RPC次数的目的。

指定scan.next扫描HBase所获取的行数

hbase-site.xml

属性：hbase.client.scanner.caching

解释：用于指定scan.next方法获取的默认行数，值越大，消耗内存越大。

BlockCache占用RegionServer堆内存的比例

hbase-site.xml

属性：hfile.block.cache.size

解释：默认0.4，读请求比较多的情况下，可适当调大

MemStore占用RegionServer堆内存的比例

hbase-site.xml

属性：hbase.regionserver.global.memstore.size

解释：默认0.4，写请求较多的情况下，可适当调大

猜你喜欢

转载自blog.csdn.net/qq_43523503/article/details/113531479

HBase_05_HBase优化

【Hbase 05】Hbase表的设计原则与优化方案

HBASE部分：HBASE的优化

HBase | HBase 优化

hbase优化

HBase的优化

HBase 优化

[Hbase]Hbase常用的优化方法

HBase的优化部分：HBase创建表的优化

HBASE的优化部分：HBASE读取表的优化

HBase的优化：HBASE创建表的优化

Hbase部分的优化：HBASE写表的优化

HBASE

【Hbase】

05. HBase WAL解析

HBase性能优化

Hbase 性能优化

hbase优化简介

Hbase配置优化（转）

Hbase API操作优化

hbase 配置优化

hbase优化（1）

转：Hbase 性能优化

HBase 监控及优化

hbase参数配置优化

hbase优化总结一

HBASE优化、维护相关

hbase优化总结二

HBase: HTablePool重构及优化

HBase性能优化总结

今日推荐

Electron中的关于静态资源加载问题解决方案

《Cursor-AI编程》基础篇-界面指南

《Cursor-AI编程》基础篇-Tab代码智能补充

《Cursor-AI编程》基础篇-Composer功能详解

《Cursor-AI编程》基础篇-Chat功能详解

《Cursor-AI编程》进阶篇-自定义模型

《Cursor-AI编程》进阶篇-上下文详解

【大模型系列篇】最强检索增强技术GraphRAG基本原理详解

【大模型系列篇】基于Ollama和GraphRAG v2.0.0快速构建知识图谱

解释什么是迁移学习？在 CNN 中如何应用？（面试题200合集，高频、关键）

解释数据增强（Data Augmentation）的概念和方法（（面试题200合集，高频、关键））

揭秘大模型“魔法”：Function Calling 让 AI 不止会说，更能“做”！

周排行

ConfigurationClassParser类的parse方法源码解析

基础大讲堂-java 位运算符

ConsecutiveInteger判断给定的整数n能否表示成连续的m(m>1)个正整数之和

多项式问题之六——多项式快速幂

Spring Security技术栈开发企业级认证与授权（四）RESTful API服务异常处理

Linux基础命令---apachectl

MATLAB中的线性插值

Unity编辑器拓展之十七：NGUI ComponentSelector增加搜索框

SqlServer 备份还原教程

[Unity动画]01.

每日归档

2025-04-12(10529)

2025-04-11(9561)

2025-04-10(1213)

2025-04-09(10354)

2025-04-08(12998)

2025-04-07(0)

2025-04-06(0)

2025-04-05(0)

2025-04-04(0)

2025-04-03(0)