交换机CPU负载高达90%以上(一)【新任帮主】

交换机CPU负载高达90%以上(一)
一.前言
自从工作以来 ,接触了很多的项目,也遇到了无数多的问题,有些问题看似很奇葩,其实从理论上来解
释都是行的通的,当然我们排除是设备或是软件自身的bug问题,因为这样的问题令人很恶心,想必同道中人
也是深有感触吧;总结这几年的工作,我为H3C,CISCO也提交过不少的bug信息了吧;之前在我的博客中多
数都是讲解网络相关的理论知识,而这样的文章网上也是比比皆是;前段时间突发感慨国内实际案例分享的是
少之又少,所以接下来在我的博客中我将为大家带来我在工作中近6年来的工作经历和经验,与大家共享,在
提供案例的同时,我尽可能还原“现场”,分享实际经验的文章,文字内容都是比较多的,所以博客们要想从
接下来的博文中获取更大的利益,那只能仔细耐心的阅读文字了,让博客们能够感受当时的情景,也希望给大
家带来更多的利益!

二.第一案例
交换机CPU负载高达90%以上(一)【新任帮主】
雪飘人间分享案例之cpu负载90%以上(一)

  1. 事发经过
    由于这个是某公司集团真实网络环境,所以我不能将全网的环境在博文中体现,只能“断章取义”,
    但是大家放心,这个一点也不影响我们呈现当时的问题,接着往下走吧,现在我们开始讲故事了,希望大家可
    以听下去!
    这是一个全新的项目,当时客户使用了自己机房,采购了4台12510(两台核心,两台汇聚),图中体现的
    就是两台汇聚交换机了,40多台接入交换机,495台server,其中交换机全部都是两俩堆叠(如图所示);这
    个项目的负责人是我,我也主要掌管网络这块,还有做主机和数据库的,当然还有H3C厂商的人,事发当晚,
    我们都在机房,当时这两个机柜机器时常不通 ,丢包严重,一开始我并没有注意这块,因为我主要负责规划和
    统筹协调这一块,具体的技术实施和命令配置是由厂家完成的;当时已经准备下班回去了,业务的人开始反应
    说机器丢包,而且越来越严重,我让厂家的人先去排查,过了一段时间问他们怎么样了 ,他们说没什么异
    常,,,我这个时候就开始怀疑了,怎么会正常,当时我过去登上一台交换机查看,确实没有什么异
    常,包括cpu和内存使用率,不行就重启交换机试试 ,于是我就重启交换机,因为是新的环境所以并不会有什
    么太大的影响,重启完之后就正常了 ,我们观察10多分钟没什么问题,我们就都下班了 ;
    第二天一早业务的人反应又开始丢包,我又跑到机房去看,如果要是交换机有什么问题重启也不应该会恢
    复问题呀 ,再说当时交换机流量并没有那么大,所以也不应该是流量造成的呀,我当时忙于其他事情,让厂商
    的人去排查,,可厂商的人好像已经黔驴技穷了,不知道该怎么办,确实丢包的问题和不通的问题排查难度
    相差很大,我当时忙完手头上的事情,就过去看这个问题,并且和他们说不要怕,一切都能搞定;首先我排查
    每个接口的流量,发现有个接口流量非常大,我就单条命令查看该接口的数据包变化,,, 后来发现接口的利
    用率一直在缓慢的增长,但是CPU确实很正常,大概30多分钟,后接口的利用率竟然达到了100%;当时我就直
    接去排查线路问题,发现施工队在接线的时候接错了,原来是要把一个柜上的交换机到另一个机柜上的服务器
    连接起来,结果他错把要接在服务器上的线接在了交换机上面,导致我的二层拓扑出现了环路(全网STP是关
    闭的),如下图接线示意图:
    交换机CPU负载高达90%以上(一)【新任帮主】
    雪飘人间分享案例之cpu负载90%以上(一)

2.总结结论
1.对于交换机而言,一般来说如果网络中有环路,那么交换机的CPU会很快上升到100%,但是H3C不是
这样的,当时查看了CPU没有问题,就没有在向环路上面想,所以这是一个坑,判断环路不能仅仅看
交换机的CPU和内存
2.环路产生是由于施工队错拔错插线路导致的,现场部署的线路确实很多也非常复杂,所以物理线路一
定要理顺

猜你喜欢

转载自blog.51cto.com/2825930/2286867