想必各个公司都有部署zabbix之类的监控系统来监控服务器的资源使用情况、各服务的运行状态，是否这种监控就足够了呢？有没有遇到监控系统一切正常确发现项目无法正常对外提供服务的情况呢？本篇文章聊聊我们如何简单的使用Nagios监控业务的状态

文中的业务指用户访问的网站页面，对外提供的API接口，移动端的APP等产品

监控的思考

通常我们会在项目所在的机房部署一套监控系统来监控我们服务器和MySQL之类的公共服务，制定报警策略，在出现异常情况的时候邮件或短信提醒我们及时处理。

此类监控主要的关注点有两个：

资源的占用情况，例如负载高低、内存大小、磁盘空间等
服务的状态监控，例如Nginx状态、Mysql主从状态等

同时也会存在以下两个主要问题：

缺少业务状态的监控，不能很直观的知道业务当前的状态，可能服务器、服务都正常但业务确挂了
监控服务器和业务服务器处于同一机房环境内，监控网络故障、入口网络拥堵等情况都可能会导致收不到监控系统的报警，且只能监控机房内的情况，用户到机房入口的情况无法监控

那么如何解决这两个问题呢？

业务状态监控，就是要最直观的的反映业务当前是正常还是故障，该怎么监控呢？以web项目为例，首先就是要确定具体URL的返回状态，是200正常还是404未找到等，其次要考虑页面里边的内容是不是正常，我们知道最终反馈给用户内容的是由一些静态资源和后端接口数据共同组成的HTML页面，想知道内容究竟对不对这个比较困难，退而求其次我们默认所有静态资源和后端接口都返回正常状态则表示正常，这个监控就比较容易实现了。

静态资源可以直接由nginx服务器处理，nginx的并发能力很强，一般不会成为性能的瓶颈，针对静态资源的监控我们可以结合ELK一起来看。后端接口的处理性能就要差很多了，对业务状态的监控也主要是对后端接口状态的监控，那我们是否需要监控所有的接口呢？这个实施起来比较麻烦，我觉得没太大必要，只需要监控几个有代表性的接口就可以了，例如我们所有的项目中都让开发单独加了一个health check的接口，这个接口的作用是连接项目所有用到的服务进行操作，如接口连接mysql进行数据查询以确定mysql能给正常提供服务，连接redis进行get、set操作以确定redis服务正常，对于这个接口的监控就能覆盖到整个链路的服务情况。

对于监控服务器和业务服务器在同一个机房内所导致的问题（上边讲到的第二点问题），我们可以通过在不同的网络环境内部署独立的状态监控来解决，例如办公区部署Nagios，不同网络监控也更接近用户的网络情况，这套状态监控就区别于机房部署的资源占用监控了，主要用来监控业务的状态，也就是我们上边提到的URL和接口状态。

我们能不能直接将监控部署在机房外的环境来节省一套监控呢？例如公司或者其他的机房部署监控。这样不是个好方案，跨网络的监控性能太差了，首先网络之间的延迟都比同机房内要大的多，其次大量监控项频繁的数据传输对带宽也是不小的压力

扫描二维码关注公众号，回复： 3573432 查看本文章

Nagios监控

我们业务状态监控采用了Nagios，Nagios部署简单配置灵活，这种场景下非常适合。

系统环境：Debian8
nginx + nagios架构

部署Nagios

防爬虫，详细内容请关注微信公众号【运维咖啡吧】查看

7.浏览器访问服务器IP或域名就可以看到nagios的页面了，默认有本机的监控数据，不需要的话可以在配置文件localhost.cfg中删除

Nagios配置

防爬虫，详细内容请关注微信公众号【运维咖啡吧】查看

check_api.cfg里边的内容如下：

防爬虫，详细内容请关注微信公众号【运维咖啡吧】查看

check_command我们配置了check_http，需要修改commands.cfg文件中默认的check_http配置如下：

防爬虫，详细内容请关注微信公众号【运维咖啡吧】查看

use我们配置了generic-service，可以通过配置服务模板定义很多默认的配置如下：

防爬虫，详细内容请关注微信公众号【运维咖啡吧】查看

contact_groups我们配置了admins，接下来看下contacts.cfg的配置

防爬虫，详细内容请关注微信公众号【运维咖啡吧】查看

全部配置完成后重启nagios服务，会看到监控已经正常

Nagstamon插件

介绍一款配合nagios用起来非常棒的插件Nagstamon，Nagstamon是一款nagios的桌面小工具（实际上现在不仅仅能配合nagios使用，还能配合zabbix等使用），启动后常驻系统托盘，当nagios监控状态发生变化时会及时的跳出来并发出声音警告，能够更加及时的获取业务状态。

配置如下：

Update interval能够配置多长时间取一次nagios的状态，我们这里调整为1s
当出现报警时桌面直接飙红，给你心跳加速的感觉

写在最后

业务状态监控作为Zabbix之类过程监控的补充，并不能替代过程监控系统，在我们过程监控不是很完善的情况下很有用，目前我们有相当一部分的报警都首先发现于这套业务状态监控
选择Nagios主要是她比较纯粹，专注状态监控（有插件实现过程记录），且对Nagios比较熟悉了。Nagios看似配置复杂，几个配置文件环环相扣，实际上理清楚配置文件之间的关系就会发现配置合理且简单
部署的状态监控节点越多覆盖地区越多用户状态获取就越准确，但由于网络环境复杂，我们也不可能在每个省市、节点部署监控系统来监控项目的状态，如有必要可以考虑一些商业监控方案，能够做到全球节点监控，但相应的成本可能就会增加，要综合权衡

长按关注公众号查看更多原创文章

如果你觉得文章对你有帮助，请转发分享给更多的人。如果你觉得读的不尽兴，推荐阅读以下文章：

使用Nagios打造专业的业务状态监控

监控的思考

Nagios监控

部署Nagios

Nagios配置

check_api.cfg里边的内容如下：

check_command我们配置了check_http，需要修改commands.cfg文件中默认的check_http配置如下：

use我们配置了generic-service，可以通过配置服务模板定义很多默认的配置如下：

contact_groups我们配置了admins，接下来看下contacts.cfg的配置

Nagstamon插件

写在最后

猜你喜欢