数据中心网络如何快速排障

当数据中心的网络规模变得很大时,不得不要增加网络设备,实现多层级联。现在的数据中心往往都是树形结构,核心放置几台转发容量超大的设备,然后下挂多层设备(因为端口数量不够,可能需要多层),数十台甚至几百台的网络设备级联到一起,一旦出了故障,如何能快速找到故障设备,经常困扰着很多网络运维人员。

数据中心的网络设备都是有冗余的,只要网络故障时找到故障设备,将其隔离即可恢复业务,然后再去慢慢排查故障原因,但从数百台的设备中找到具体哪台故障绝非易事。网络故障往往先从应用侧得到故障反馈,然后开始排障,这时应用人员往往描述的只是一个应用访问故障现象,他不会告诉你具体哪些地址到哪些地址不通,有时甚至是错误的信息,这极大延误了问题定位时长。问题定位大部分时间都是花在故障现象的整理过程中,怎么办?数据中心网络该如何快速排障?本文将给出答案。

数据中心网络如何快速排障1

网络故障如果要从应用侧反馈的故障现象去分析,这时已经晚了,而且容易被应用人员带入误区,有些应用人员反馈的现象只是他自己看到的,现象很可能只是一个局部现象,并不能反映出整个网络的故障情况。所以要靠自己,做好网络监控,通过监控去发现问题,从而迅速找到故障设备,做设备隔离或者解除故障。

早期的网络监控主要是对设备的一些日志和端口流量做监控,更多的时候这些信息并不够,并不能及时发现问题。很多网络设备厂商说自己的设备日志非常完整,但实际使用时仍有一些极端情况或者软件BUG导致故障时无日志输出,这时就要针对流量进行定位。到了这个时候,就需要网络人员去找应用人员了解故障现象,通过现场找出一些丢包或者不通的IP地址来,然后进行网络流通,对这个故障流量经过的设备都做流通,找到故障设备。既然是树形网络,每一层都有很多设备,这个流通量是相当大的,而且并不是所有的设备都能支持对所有特征的流量做统计,有不支持的设备就会使得统计不准,加大了寻找故障设备的难度,做网络运维的这些年都是这样坚持过来的。

猜你喜欢

转载自www.cnblogs.com/androidioscom/p/9376696.html