Ganglia & Nagios

      Ganglia对OBS进行指标的监控。 Nagios对OBS出现的故障进行告警上报。

 ====Ganglia====

      Ganglia是一个开源集群监视项目,设计用于测量数以千计的节点。

 

      Ganglia的核心包含gmond、gmetad以及一个Web前端。主要是用来监控系统性能,如:cpu 、mem、硬盘利用率, I/O负载、网络流量情况等,通过曲线很容易见到每个节点的工作状态,对合理调整、分配系统资源,提高系统整体性能起到重要作用。

 

       每台计算机都运行一个收集和发送度量数据的名为 gmond 的守护进程。接收所有度量数据的主机可以显示这些数据并且可以将这些数据的精简表单传递到层次结构中。正因为有这种层次结构模式,才使得 Ganglia 可以实现良好的扩展。gmond 带来的系统负载非常少,这使得它成为在集群中各台计算机上运行的一段代码,而不会影响用户性能。所有这些数据多次收集会影响节点性能。网络中的 “抖动”发生在大量小消息同时出现时,可以通过将节点时钟保持一致,来避免这个问题。

 

        gmetad可以部署在集群内任一台节点或者通过网络连接到集群的独立主机,它通过单播路由的方式与gmond通信,收集区域内节点的状态信息,并以XML数据的形式,保存在数据库中。

 

        由RRDTool工具处理数据,并生成相应的的图形显示,以Web方式直观的提供给客户端。

 

 ====Nagios====

        Nagios是一款开源的免费网络监视工具,能有效监控Windows、Linux和Unix的主机状态,交换机路由器等网络设置,打印机等。在系统或服务状态异常时发出邮件或短信报警第一时间通知网站运维人员,在状态恢复后发出正常的邮件或短信通知。

        Nagios是一个监视系统运行状态和网络信息的监视系统。Nagios能监视所指定的本地或远程主机以及服务,同时提供异常通知功能等。Nagios可运行在Linux/Unix平台之上,同时提供一个可选的基于浏览器的WEB界面以方便系统管理人员查看网络状态,各种系统问题,以及日志等等。

        Nagios 可以监控的功能有:

        1、监控网络服务(SMTP、POP3、HTTP、NNTP、PING等);

        2、监控主机资源(处理器负荷、磁盘利用率等);

        3、简单地插件设计使得用户可以方便地扩展自己服务的检测方法;

        4、并行服务检查机制;

        5、具备定义网络分层结构的能力,用"parent"主机定义来表达网络主机间的关系,这种关系可被用来发现和明晰主机宕机或不可达状态;

        6、当服务或主机问题产生与解决时将告警发送给联系人(通过EMail、短信、用户定义方式);

        7、可以定义一些处理程序,使之能够在服务或者主机发生故障时起到预防作用;

        8、自动的日志滚动功能;

        9、可以支持并实现对主机的冗余监控;

        10、可选的WEB界面用于查看当前的网络状态、通知和故障历史、日志文件等; 

        Nagios所需要的运行条件是机器必须可以运行Linux(或是Unix变种)并且有C语言编译器。你必须正确地配置TCP/IP协议栈以使大多数的服务检测可以通过网络得以进行。

 

 

 

猜你喜欢

转载自xjtu-liuyang-163-com.iteye.com/blog/1821708