RocketMQ 集群监控(二)

前言

主题和消费组通常使用方比较关心的资源,发送方关注主题,消费方关注消费组。管理员更侧重关注集群的健康状况。本文介绍主题和消费组的监控实战,包括监控项的设计、及每个监控项的代码实现。

监控项设计

我们先把主题监控和消费监控统称为资源监控,下图分列了主题和消费组包含的监控项。

主题监控

从发送速度、发送耗时、消息大小、日消息量方面整理主题监控项,下面分别介绍这些监控项的重要性。

发送速度

通过实时采集主题的发送速度,来掌握主题的流量情况。例如:有些业务场景不允许主题的发送速度掉为 0,那通过实时采集发送速度指标,为将来告警做准备。

发送变化率

发送变化率是指,特定时间内主题的发送速度变化了多少。例如:5 分钟内发送速率陡增了 2 倍。通常用于两方面,一个是保护集群,某个 Topic 过高的瞬时流量可能对集群安全造成影响。例如:一个发送速率为 5000 的主题,在 3 分钟内陡增了 5 倍,到了 25000 的高度,这种流量对集群存在安全隐患。另一个是使用角度检测业务是否正常,比如一个发送速率为 8000 的主题,在 3 分钟内掉为 80,类似这种断崖式下跌是否是业务正常

猜你喜欢

转载自blog.csdn.net/prestigeding/article/details/109335903
今日推荐