集群监控

监控指标

1、load

  load表示在特定时间间隔内运行队列中的线程数,每个CPU核维护着一个运行队列,队列中的线程数越多,意味着cpu越繁忙。一般一个队列维护的线程数不大于3表示cpu运行正常,如果大于5表明cpu运行超负荷。查看load指标的指令为uptime

2、cpu使用率

  通过top指令来查看cpu的使用率

3、trafic

  可以通过sar指令查看每个节点的trafic状态。指令为:sar -n DEV 1 1。n表示汇报网络状态,DEV表示查看各个网卡的网络流量,第一个1表示每一秒抽样一次,第二个1表示总共抽样一次。

4、磁盘I/O

  对于数据库应用和分布式文件存储系统,I/O指标在一定程度上反映了服务的繁忙程度,IO查看指令为:iostat -d -k。

5、内存使用

  free -g指令查看系统内存。total表示物理内存。剩余内存的计算方式为free=free+buffers+cached。使用内存used=used-buffers-cached。对于应用来说更应该关注的是swap,swap消耗过多表示物理内存已经不够用了。因为如果内存不够,部分数据会从内存转到磁盘,以腾出足够的空间给当前进程。内存越不够用,内存与磁盘的交换越频繁,swap使用越高。

心跳检测

1、ping

  ping指令可以查看地址的响应数据。

2、应用层检测

  通过curl指令可以访问应用层预留的自检url,通过响应数据来感知应用的健康状态,一旦响应超时或者无响应可以输出报警信息。

猜你喜欢

转载自www.cnblogs.com/youzhongmin/p/9280861.html