本文将向你介绍 Ganglia,它是一个易于扩展的监控系统。使用它可以实时查看 Linux 服务器和集群(图形化展示)中的各项性能指标。Ganglia在结构上由三种守护进程组成gmond 、gmetad和gweb。在操作上,每种守护进程都是独立的,运行时只需要自己的配置文件来操作即可,任意守护进程在缺少其他两种守护进程的情况下也可以正常启动和运行。然而, 三者在结构上又是相互协作的,需要同时使用才能发挥功效。
gmond
gmond和普通代理一样,安装在每一台需要监控的主机上,负责与操作系统交互以获得需要关注的指标数据,例如CPU负载和硬盘容量。
gmond在内部采用模块化设计,采用基于C语言编写的、根据操作系统定制的插件进行监控。和其他监控系统采用的客户端代理软件不同, gmond不需要等待外部轮询引擎的数据监测请求,也不将监控数据直接上传至集中式轮询器,而是根据自己本地配置文件定义的调度方案进行轮询。监测数据时使用简单的监听/通告协议,通过 XDR (External Data Representation)在集群内的主机之间共享。因此,Ganglia集群内的每个节点都知道同一集群内所有主机的当前指标数据。远程轮询器可以通过端口8649 向集群内任意节点请求获得该集群XML格式的所有数据。
gmond并不是消极等待被监控系统服务器唤醒,而总是处于激活态,以便进行测量、传输和共享。轮询器不再需要知道从哪些主机获取哪些服务,而只需要一个包含每个集群内至少一台主机名称的列表即可。gmetad:整合所有信息
gmeted是一个简单的轮询器,对网络中每个集群进行轮询,并将每台主机上返回的所有指标数据写入各个集群对应的轮询数据库RRD。
作为数据存储的一种流行的解决方案,RRDtool是很好的选择。指标数据存储于轮询数据库(Round Robin Database),这种数据库包含了多个时间块内静态分配的数值。如果每10秒进行一次轮询,每次数据都进行存储,一天将需要8640次存储。考虑到数据保留需求, RRDtool 内部以“循环覆盖”的方式管理数据,将新数据的值叠加到原来的数值上来覆盖原有数据。gweb
Ganglia可视化工具——gweb无需用户进行任何自定义设置即可便捷、及时地访问网络中任意一台主机的任意一种指标数据。
Ganglia 能够让你以集群(按服务器组)和网格(按地理位置)的方式更好地组织服务器。这样,我们可以创建一个包含所有远程主机的网格,然后将那些机器按照其它标准分组成小的集合。此外, Ganglia 的 web 页面对移动设备进行过优化,也允许你导出 csv和 .json 格式的数据。
我们的测试环境包括一个安装 Ganglia 的主节点服务器 CentOS 7 (IP 地址 192.168.0.29),和一个作为被监控端的 Ubuntu 14.04 主机(192.168.0.32)。我们将通过 Ganglia 的 Web 页面来监控这台 Ubuntu 主机。
下面的例子可以给大家提供参考,CentOS7 作为主节点,Ubuntu 作为被监控对象。
请遵循以下步骤,在主节点服务器安装监控工具。
1.启用EPEL 仓库 ,然后安装 Ganglia 和相关工具:
# yum update && yum install epel-release # yum install ganglia rrdtool ganglia-gmetad ganglia-gmond ganglia-web
在上面这步随 Ganglia 将安装一些应用,它们的功能如下:
- rrdtool,Round-Robin 数据库,它是一个储存并图形化显示随着时间变化的数据的工具;
- ganglia-gmetad 一个守护进程,用来收集被监控主机的数据。被监控主机与主节点主机都要安装 Ganglia-gmond(监控守护进程本身);
- ganglia-web 提供 Web 前端,用于显示监控系统的历史数据和图形。
如果你想了解更多高级安全机制,请参阅 Apache 文档的 授权与认证部分。
为完成这个目标,我们需要创建一个用户名并设定一个密码,以访问被 Apache 保护的资源。在本例中,我们先来创建一个叫 adminganglia 的用户名,然后给它分配一个密码,它将被储存在 /etc/httpd/auth.basic(可以随意选择另一个目录 和/或 文件名, 只要 Apache 对此有读取权限就可以。)
# htpasswd -c /etc/httpd/auth.basic adminganglia
给 adminganglia 输入两次密码完成密码设置。
3.修改配置文件/etc/httpd/conf.d/ganglia.conf:
Alias /ganglia /usr/share/ganglia AuthType basic AuthName "Ganglia web UI" AuthBasicProvider file AuthUserFile "/etc/httpd/auth.basic" Require user adminganglia
4.编辑 /etc/ganglia/gmetad.conf:
首先,使用 gridname 指令来为网格设置一个描述性名称。
gridname "Home office"
然后,使用 data_source 指令,后面跟集群名(服务器组)、轮询时间间隔(秒)、主节点主机和被监控节点的 IP 地址:
data_source "Labs" 60 192.168.0.29:8649 # 主节点 data_source "Labs" 60 192.168.0.32 # 被监控节点
5.编辑/etc/ganglia/gmond.conf。
a) 确保集群的配置类似下面。
cluster { name = "Labs" # gmetad.conf 中的 data_source 指令的名字 owner = "unspecified" latlong = "unspecified" url = "unspecified" }
b) 在 udp_send_chanel 中,注释掉 mcast_join:
udp_send_channel { # mcast_join = 239.2.11.71 host = localhost port = 8649 ttl = 1 }
c) 在 udp_recv_channel 中,注释掉 mcast_join 和 bind 部分:
udp_recv_channel { # mcast_join = 239.2.11.71 ## comment out port = 8649 # bind = 239.2.11.71 ## comment out }
保存并退出。
6.打开 8649/udp 端口,使用 SELinux 确保 php 脚本(通过 Apache 运行)能够连接到网络:
# firewall-cmd --add-port=8649/udp # firewall-cmd --add-port=8649/udp --permanent # setsebool -P httpd_can_network_connect 1
7.重启 Apache、gmetad、gmond,并确保它们启用了“开机启动”。
# systemctl restart httpd gmetad gmond # systemctl enable httpd gmetad httpd
至此,我们现在能够打开 Ganglia 的 Web 页面 http://192.168.0.29/ganglia 并用步骤 2 中设置的凭证登录。
8.在 Ubuntu 主机上,只需安装 Ganglia-monitor,等同于 CentOS 上的 ganglia-gmond:
$ sudo aptitude update && aptitude install ganglia-monitor
9.编辑被监控主机的 /etc/ganglia/gmond.conf 文件。与主节点主机上是相同的文件,除了被注释掉的cluster, udp_send_channeludp_recv_channel 这里不应被注释:
cluster { name = "Labs" # The name in the data_source directive in gmetad.conf owner = "unspecified" latlong = "unspecified" url = "unspecified" } udp_send_channel { mcast_join = 239.2.11.71 host = localhost port = 8649 ttl = 1 } udp_recv_channel { mcast_join = 239.2.11.71 ## comment out port = 8649 bind = 239.2.11.71 ## comment out }
之后重启服务。
$ sudo service ganglia-monitor restart
10. 刷新页面,你将在 Home office grid / Labs cluster 中看到两台主机的各种统计及图形化的展示(用下拉菜单选择集群,本例中为 Labs):
使用菜单按钮(如上指出的),你可以获取到每台服务器和集群的信息。还可以使用 对比主机Compare Hosts选项卡来比较集群中所有服务器的状态。
可以使用正则表达式选择一组服务器,立刻就可以看到它们性能的对比:
我最喜欢的一个特点是对移动端有友好的总结界面,可以通过 Mobile 选项来访问。选择你感兴趣的集群,然后选中一个主机。