硬件故障导致Hbase RegionServer CPU飚高 - 代码天地

硬件故障导致Hbase RegionServer CPU飚高

数据库 2018-05-09 20:52:07 阅读次数: 1

场景介绍

国庆期间Hbase集群有一台RegionServer a02机器的内存故障原因导致下线，集群在少一台的情况下运行正常，节后a02机器内存故障修复后重新加入集群提供服务，几乎同时发现集群另外一台a04的CPU使用率高居不下, 按照常理分析集群恢复至最初状态，应该会运行良好,实际上却是a04的CPU使用率一路飚高。

问题初步排查

Region数据排查，集群Region数量均衡，并无发现异常
GC日志分析,发现Parnew频率有增加，1天20-30次，与其他机器比偏高
RegionServer日志排查，也没有发现异常输出
配合网卡、磁盘IO等也没有发现什么端倪，RPC处理队列变大

调整思路

软件没问题，是不是硬件有问题，同一批机器硬件型号一致，极有可能内存或其他硬件也有问题。经过运维同学排查，这台机器的内存的确有问题，更换内存后CPU使用率一泻千里，与其他机器CPU使用率持平，最终确认为硬件故障。

分析GC的收获

通过几个月的GC日志分析，发现8月初GC频率一下子密集起来，与其他RegionServer的Gc情况对比，发现症状时间点相同，下一步需要验证这个点发生了什么重大事件。通常的处理方案有两种调优GC以及扩容集群分摊压力。

GC调优方案

1、JVM参数调优

2、启用MemStoreChunkPool达到优化GC目的

官网介绍：https://issues.apache.org/jira/browse/HBASE-8163

MSLAB提升HBASE GC性能：http://blog.csdn.net/map_lixiupeng/article/details/40914567

猜你喜欢

转载自woodding2008.iteye.com/blog/2332021

硬件故障导致Hbase RegionServer CPU飚高

JVM线上CPU 飚高故障排查基本操作

HBase RegionServer功能职责

HBase --- RegionServer组件

Hbase RegionServer 宕机

HBase RegionServer Splitting 流程

HBASE 优化之REGIONSERVER

hbase 停止regionserver

hbase regionserver异常宕机

HBASE REGIONSERVER启动过程

HBase RegionServer挂掉问题分析

HBase | RegionServer拆分实现过程

Hbase regionserver 启动不了的解决方案

HBase深入分析之RegionServer

hbase单节点部署多regionserver

HBase RegionServer挂掉后的源码分析

hbase put 流程分析regionserver端

Hbase regionserver 逐个挂掉的问题分析

HBase中RegionServer宕机恢复介绍

Java GC 及HBase RegionServer GC调优

hbase启动regionserver提示如下错误

hbase 单个regionserver中region过多优化

HBase单个RegionServer的region数目上限

HBase原理－RegionServer宕机数据恢复

Why Should HBase RegionServer & Hadoop DataNode Colocate?

HBase session expired regionserver aborted session timeout

hbase读写流程, regionserver内存调节

hbase启动regionServer报错：ERROR [main] regionserver.HRegionServerCommandLine: Region server exiting

hbase故障分析之-regionserver突然宕机启动后也是宕机

简单的cpu飚高问题定位脚本

今日推荐

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

GCC 14.1 发布

面壁智能发布 Eurux-8x22B 开源大模型 —— 堪称「理科状元」

开源日报 | 谷歌扶持鸿蒙上位；开源Rabbit R1；Docker加持的安卓手机；微软的焦虑和野心；海尔电器把开放平台关了

中国码农的“35岁魔咒”

蘭雅 CorelDRAW 插件 2024.5.1 国际劳动节版，免费下载

Arc Browser for Windows 1.0 正式 GA

90后程序员开发视频搬运软件、不到一年获利超 700 万，结局很刑！

周排行

Java自定义时间格式

同步整形电路

在开发中最最最常用的字符串的属性大集合

Linux 查看端口占用并杀掉

Java基础四：ArrayList

多线程之死锁就是这么简单

mysql 基础命令集

awk 命令详解

Centos6.3编译安装nginx+php步骤

OCR （Optical Character Recognition，光学字符识别）

每日归档

更多

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)

2024-05-03(19)

2024-05-02(0)

2024-05-01(4)

2024-04-30(1)

2024-04-29(40)