不是吧,交换机坏了你还只会这么排查?

又见面了,我的网工朋友

上次给你分享了交换机和路由器的对接上网配置案例,还记得吗?

今天这篇,和你聊聊交换机接口故障。

接口故障这件事,对咱们网工来说其实算是家常便饭了。

工作到现在,你复盘一下,有没有理出来一个最高效的排查和处理接口故障方法?

没思路的话,今天给你盘一盘。

接口状态怎么查看?接口的物理状态为DOWN状态时,怎么定位故障原因?怎么恢复接口到UP状态?

如果觉得有用的话,可以多多转发分享,让更多网工同行收益。

今日文章阅读福利:《交换机学习笔记(280页独家)》

想了解交换机的更多实用技巧,欢迎私信我,发送暗号“280”,前30名私信的小友即可获取此份资源。

每周我也都会选取10名小友,给你进行1v1的深度解答,欢迎交流。

01 接口物理DOWN,基本就这两种原因

引起接口物理DOWN的原因主要包括以下两个方面:

硬件故障。

本端或对端设备的硬件故障,例如单板、接口、光模块、光纤、网线等故障。

软件故障。

主要是链路两端配置不一致,例如端口自协商模式、速率、双工等配置不一致。

为了更加精确的分析接口物理DOWN的故障原因,这篇文章以故障可能的引入点为线索。

建议你参照这五个步骤作为排查顺序:

人(人为因素导致的故障)-》

机(设备自身硬件故障)-》

料(连接介质故障)-》

法(连接介质使用方法错误)-》

环(环境因素导致的故障)

逐步找到问题根因并排除故障。

02 查看接口状态,可以用这三种方式

01 通过查看业务接口指示灯识别接口状态

如果你能够实际接触设备,直接观察业务接口的指示灯,可以更快的识别当前业务接口的状态。

在这里以S6730-H48X6C为例。

下图所示,其中编号为4的指示灯,为10GE光接口指示灯,编号为5的指示灯,为40GE/100GE光接口指示灯。

图1-1 S6730-H48X6C指示灯示意图

表1-1 业务接口指示灯的含义

02 通过执行命令查看接口物理状态

你还可以通过执行命令display interface briefdisplay interface interface-type interface-number 查看接口物理状态。

1. 在任意视图下执行命令display interface brief 查看所有接口的物理状态(回显中PHY字段信息)。

<HUAWEI> display interface brief
PHY: Physical   //表示接口的物理状态                                                                
*down: administratively down  
^down: standby                                                                  
~down: LDT down                                                            
#down: LBDT down   
(l): loopback                                                                  
(s): spoofing  
(E): E-Trunk down 
(b): BFD down 
(e): ETHOAM down 
(dl): DLDP down 
(d): Dampening Suppressed 
(ld): LDT block 
(lb): LBDT block 
(lp): Loop-detect block  
(ms): MACsec down     
(o): Observe-port forwarding down  
InUti/OutUti: input utility/output utility                                      
Interface                   PHY   Protocol InUti OutUti   inErrors  outErrors   
Ethernet0/0/0               up    up       0.01%  0.01%          0          0   
GigabitEthernet1/0/0        down  down        0%     0%          0          0   
GigabitEthernet1/0/1        down  down        0%     0%          0          0   
GigabitEthernet1/0/2        down  down        0%     0%          0          0   
GigabitEthernet1/0/3        down  down        0%     0%          0          0   
GigabitEthernet1/0/4        down  down        0%     0%          0          0   
GigabitEthernet1/0/5        down  down        0%     0%          0          0   
GigabitEthernet1/0/6        up    up          0%     0%          0          0   
GigabitEthernet1/0/7        up    up          0%     0%          0          0   
GigabitEthernet1/0/8        up    up          0%     0%          0          0   
GigabitEthernet1/0/9        up    up          0%     0%          0          0   
GigabitEthernet1/0/10       down  down        0%     0%          0          0   
……

2. 或者在任意视图下执行命令display interface interface-type interface-number 查看指定接口的当前物理状态(回显中current state字段信息)。

<HUAWEI> display interface gigabitethernet 0/0/12

GigabitEthernet0/0/12 current state : Administratively DOWN
Line protocol current state : DOWN
Description:
Switch Port, Link-type : access(negotiated),
PVID :1, TPID : 8100(Hex), The Maximum Frame Length is 9216
IP Sending Frames' Format is PKTFMT_ETHNT_2, Hardware address is 000b-0974-a475 
Last physical up time: 2013-08-10 21:09:51 
Last physical down time : 2013-08-10 21:10:51
Current system time: 2013-08-10 21:15:06
Port Mode: COMMON FIBER
Speed : 1000,Loopback: NONE
Duplex: FULL,Negotiation: ENABLE
Mdi: -,Flow-control: DISABLE
Last 300 seconds input rate 96 bits/sec, 0 packets/sec
Last 300 seconds output rate 96 bits/sec, 0 packets/sec
Input peak rate 15184 bits/sec, Record time: 2013-08-10 17:45:05
Output peak rate 15184 bits/sec, Record time: 2013-08-10 17:45:05

上面的实例中,接口GE0/0/12的当前物理状态为Administratively DOWN 。

表示这个接口下执行了命令shutdown。

如果希望将这个接口UP,则需要在对应接口视图下执行undo shutdown命令。

在这里说明一下:

(1) 对于二层物理接口(设备的以太网接口默认工作在二层模式)。

只要物理状态current state为UP,协议状态Line protocol current state一定是UP的。

例:二层物理接口连线正确,并且接口属性配置正常后,物理状态current state和协议状态Line protocol current state均是UP的。

(2) 对于三层物理接口(接口下执行了命令undo portswitch将接口从二层模式切换到三层模式)。

只有物理状态current state为UP,并且协议协商也成功后,协议状态Line protocol current state才会UP。

例:三层物理接口连线正确,并且接口属性配置正常后,如果没有配置IP地址,则物理状态current state为UP,但协议状态Line protocol current state仍处于DOWN状态。

更多查看接口配置信息或统计信息的命令,看下面这张表。

03 通过查看接口模块的日志识别接口状态

你还可以在任意视图下执行命令display logbuffer,查看设备日志信息。

例如设备上有如下IFNET模块的日志信息。

表示接口GigabitEthernet1/0/1和GigabitEthernet3/0/0处于DOWN状态。

Apr 15 2014 03:46:10-05:13 dgg62aslhw3i %%01IFNET/4/IF_STATE(l)[47]:Interface GigabitEthernet1/0/1 has turned into DOWN state.
Apr 15 2014 03:45:31-05:13 dgg62aslhw3i %%01IFNET/4/IF_STATE(l)[49]:Interface GigabitEthernet3/0/0 has turned into DOWN state.

03 接口物理DOWN的故障原因以及恢复方法

01 如何定位并恢复由人为因素导致的接口物理DOWN故障

1. 原因描述

当接口由正常UP状态变为物理DOWN时,需要首先排查下近期是否有人为操作不当。

包括错误拔插网线、误碰触设备导致连线松动。

如果确保连线没有问题,则进一步排查是否有误配置命令行的行为。

2. 故障定位方法

在对接的两个设备上的任意视图下。

均执行命令display interface interface-type interface-number,查看接口当前运行状态和接口统计信息。

<HUAWEI> display interface gigabitethernet 0/0/12

GigabitEthernet0/0/12 current state : DOWN//接口当前物理状态
Line protocol current state : DOWN
Description:
Switch Port, Link-type : access(negotiated),
PVID :1, TPID : 8100(Hex), The Maximum Frame Length is 9216
IP Sending Frames' Format is PKTFMT_ETHNT_2, Hardware address is 000b-0974-a475 
Last physical up time: 2013-08-10 21:09:51 
Last physical down time : 2013-08-10 21:10:51
Current system time: 2013-08-10 21:15:06
Port Mode: COMMON FIBER  //接口工作模式。COMMON COPPER表示此接口为电接口;
                            COMMON FIBER表示此接口为光接口 
Speed : 1000,Loopback: NONE   //接口速率、环回状态,链路两端需要保持一致
Duplex: FULL,Negotiation: ENABLE   //接口双工模式及自协商状态,链路两端需要保持一致 

3. 故障恢复方法

(1) current state字段为“Administratively down”:

表示接口被人为执行了命令shutdown,请在接口下执行undo shutdown命令。

(2) current state字段为“DOWN”:

则需要查看链路两端的接口速率、双工模式、自协商模式是否保持一致。根据Negotiation字段值的不同,采取不同的恢复手段。

(3) current state字段为“ERROR DOWN (down-cause)”:

表示接口由于错误事件而被Shutdown,你需要根据down-cause具体字段信息排查故障。

在采用恢复措施前,建议你先排除业务故障,以防止接口再次进入ERROR DOWN状态。

ERROR DOWN状态恢复措施包括手动和自动两种。

  • 手动恢复:

在接口视图下依次执行命令shutdown和undo shutdown命令或者执行命令restart,重启接口。

  • 自动恢复:

在系统视图下执行命令error-down auto-recovery cause down-cause interval interval-value。

设置由具体原因引起的Error-Down自动恢复UP功能。

02 如何定位并恢复由设备自身硬件故障引起的接口物理DOWN故障

1. 原因描述

当设备单板故障、单个接口故障,以及对端设备出现异常状况时,直接会导致接口物理DOWN。

因此设备自身硬件是否故障是重点排查项。

2. 故障定位方法

在任意视图下执行命令display interface brief ,查看所有接口状态和配置的简要信息。

<HUAWEI> display interface brief
… …
Interface             PHY    Protocol InUti OutUti inErrors outErrors
GigabitEthernet0/0/1  down   down       0%     0%     0       0
GigabitEthernet0/0/2  down   down       0%     0%     0       0
GigabitEthernet0/0/3  down   down       0%     0%     0       0
GigabitEthernet0/0/4  down   down       0%     0%     0       0
GigabitEthernet0/0/5  down   down       0%     0%     0       0
GigabitEthernet0/0/6  down   down       0%     0%     0       0

(1) 如果是多个接口由UP变为DOWN。

则可能原因是本端或对端设备的单板故障以及对端设备状态变化,例如对端设备进行主备倒换、休眠或者重启等。

(2) 如果是单个接口由UP变为DOWN。

则可查看对接的两个接口槽位外观上是否有金属弹片存在凹陷或偏位现象。

(3) 如果外观没有问题。

还需要在接口视图下执行命令loopback internal,查看接口内部是否存在硬件故障。

(4) 如果执行命令loopback internal后,接口状态(字段current state)变为 UP。

则接口内部连接正常,无硬件故障,如果接口状态仍然为DOWN,则接口内部通信异常,存在硬件故障。

<HUAWEI> system-view 
[HUAWEI] interface gigabitethernet 0/0/1
[HUAWEI-GigabitEthernet0/0/1] loopback internal
[HUAWEI-GigabitEthernet0/0/1] display this interface 
GigabitEthernet0/0/1 current state : UP 
Line protocol current state : UP 
… …

3. 故障恢复方法

(1) 多个接口物理DOWN

如果多个接口物理DOWN,这些接口都属于同一块单板,并且连接到多个无异常的对端设备。

则可能是单板异常。

尝试执行命令reset slotslot-id ,复位单板。

如果故障仍未解决,则需要更换单板。

如果多个接口物理DOWN,并且这些接口都是属于本端设备和对端同一设备连接的接口

则可能原因是对端设备异常。

你需要登录对端设备查看设备单板是否故障,并及时进行复位或更换操作。

如果对端设备处于主备倒换、休眠、重启等状态, 则可以认为属于正常现象

待对端设备状态稳定后,一般本端设备状接口状态即可自动恢复到UP状态。

该场景下,接口会出现频繁UP/DOWN,产生如下所示的大量UP/DOWN日志。

Apr 15 2013 03:46:14-05:13 dgg62aslhw3i %%01IFNET/4/IF_STATE(l)[46]:Interface
GigabitEthernet1/0/1 has turned into UP state.
Apr 15 2013 03:46:10-05:13 dgg62aslhw3i %%01IFNET/4/IF_STATE(l)[47]:Interface
GigabitEthernet1/0/1 has turned into DOWN state.
Apr 15 2013 03:45:35-05:13 dgg62aslhw3i %%01IFNET/4/IF_STATE(l)[48]:Interface
GigabitEthernet1/0/1 has turned into UP state.
Apr 15 2013 03:45:31-05:13 dgg62aslhw3i %%01IFNET/4/IF_STATE(l)[49]:Interface 
GigabitEthernet1/0/1 has turned into DOWN state.
Apr 15 2013 03:42:10-05:13 dgg62aslhw3i %%01IFNET/4/IF_STATE(l)[50]:Interface
GigabitEthernet1/0/1 has turned into UP state.

如果对端设备反复重启,例如S交换机与AP设备对接,AP反复重启,导致S交换机上与之连接的接口物理DOWN。

此时需要排查AP反复重启原因,确认是否存在网络环路、大量ARP广播报文、网络攻击等因素并排除后,才可以确保接口正常UP。

(2) 单个接口物理DOWN

仅有单个接口物理DOWN,则需要排查链路两端接口是否有金属弹片凹陷等硬件故障,如果接口故障可尝试使用其他空闲接口。

03 如何定位并恢复由连接介质故障引起的接口物理DOWN故障

1. 原因描述

设备物理接口有电口和光口,涉及的连接介质主要是RJ45-网线、光模块、光纤。

当连接介质出现老化、破损或者光模块收发光异常等故障时,会导致接口物理DOWN。

2. 故障定位方法

(1) 电口连接介质故障

  • 检查连线是否正确。

保证对接两端接口使用同一根网线,如果经过跳线架,请检查跳线是否正确。

  • 检查接口是否连接正确。

同时检查是否存在接触不好及网线外部损坏的情况。

  • 检查网线规格及长度是否符合标准。

依据以太网相关标准,网线长度不能超过100m。对于GE电口,如果使用低于五类线的网线将不能够使GE电口以1000M速率UP。所有电口对接,均推荐使用五类线以上规格的网线对接。

  • 检查网线内部线对状态是否正常。

网线中4对线序中有部分出现损坏,将不能保证电口正常UP。

  • 检测网线质量。

可以使用测线仪或者接口视图下执行virtual-cable-test命令,检测线序对连接是否正常。

如下所示回显中Pair state为Ok表示正常。

如果为Unknown,建议使用线缆分析仪进行测试

如果为Open或Short,建议更换其他网线。

[HUAWEI] interface gigabitethernet 0/0/1

[HUAWEI-GigabitEthernet0/0/1] virtual-cable-test 
Warning: The command will stop service for a while, Continue?[Y/N] y 
Info: This operation may take a few seconds. Please wait for a moment..........done. 
Pair A length: 1meter(s) 
Pair B length: 1meter(s) 
Pair C length: 1meter(s) 
Pair D length: 1meter(s) 
Pair A state: Ok 
Pair B state: Ok 
Pair C state: Ok 
Pair D state: Ok 

(2) 光口连接介质故障

  • 检查光模块是否属于华为认证光模块。

华为公司在交换机产品发货的光模块标签上增加有华为logo和相应标识。

如下图所示,在产品电子标签、光模块信息里面都更新为“HUAWEI”厂家信息。

对于非华为认证发货的光模块插入交换机设备中,会出现告警信息,可以通过display trapbuffer命令查看。

告警格式如下:

ENTITYTRAP/3/OPTICALINVALID:OID [oid] Optical Module is invalid.(Index=[INTEGER],
EntityPhysicalIndex=[INTEGER], PhysicalName=\"[OCTET]\", EntityTrapFaultID=[INTEGER])
  • 检查光模块状态是否正常。

执行命令display transceiver interface,检查两端设备上的光模块工作状态是否正常。

主要查看收光功率、发光功率、电流值等,确定各项指标是否都在正常范围内,如下表所示。

<HUAWEI> display transceiver interface GigabitEthernet 2/0/3 verbose 
… …
Diagnostic information: Temperature (°C) :39
Voltage(V):3.32 
Bias Current(mA):6.91          //电流值 
Bias High Threshold(mA):33.34
Bias LowThreshold(mA):1.67 
Current Rx Power(dBM):-4.59   //接口收光功率 
Default Rx Power High Threshold(dBM):0.00
Default Rx Power LowThreshold(dBM):-16.99 
Current Tx Power(dBM):-5.10   //接口发光功率 
Default Tx Power High Threshold(dBM):0.00 
Default Tx Power LowThreshold(dBM):-12.50 
User Set Rx Power High Threshold(dBM) :0.00 
User Set Rx Power Low Threshold(dBM):-16.99 
User Set Tx Power High Threshold(dBM) :0.00 
User Set Tx Power Low Threshold(dBM):-12.50
表1-2 光模块状态属性的正常数值范围

3. 故障恢复方法

(1) 电口连接介质故障

如果电口网线故障,建议直接更换网线。

(2) 光口连接介质故障

如果使用的光模块为非华为认证光模块,请更换使用华为认证光模块。

非华为认证光模块的可靠性无法保证,可能导致业务不稳定。

如果执行display transceiver interface命令查看光模块工作状态参数,超出了正常范围:

  • 电流过高或过低:请更换光模块。
  • 发光功率过低或过高:请更换光模块。
  • 收光功率过低或过高:使用光功率计测试链路各部分的光功率衰减情况,对异常的部位进行修复。

如果仍无法解决问题请更换光模块或者光纤,确保光模块传输距离和光纤类型符合组网需求。

04 如何定位并恢复由连接介质使用方法错误引起的接口物理DOWN故障

1. 原因描述

进行设备间连接介质操作时。

需要考虑光模块与光口是否匹配,光模块是否与光纤型号是否匹配,光模块与光纤连线操作是否正确等。

当接口出现物理DOWN时,可以从上述几个方面进行排查。

2. 故障定位方法

(1) 在任意视图下执行命令display device,查看设备型号及部件信息,其中框式设备主要可查看对应单板名称。

<HUAWEI> display device 
S9303‘s Device status:    //设备型号,下方回显信息中Type列表示单板名称 
Slot Sub  Type      Online   Power   Register   Status   Role 
------------------------------------------------------------
1     -   LE0MX4UXA Present  PowerOn Registered  Normal  NA

2     -   LE0MF48TA Present  PowerOn Registered  Normal  NA
3     -   LE0MG24SA Present  PowerOn Registered  Normal  NA
4     -   LE0DMCUA  Present  PowerOn Registered  Normal  Master
PWR1  -   -         Present  PowerOn Registered  Abnormal NA 
FAN1  -   -         Present  PowerOn Registered  Normal   NA 

(2) 登录硬件查询工具,查询当前使用的光模块类型是否和对应设备接口匹配,以及光模块是否和光纤型号匹配。

(3) 两端设备上均在任意视图下执行命令display transceiver interface,检查链路两端光模块参数是否一致。

<HUAWEI> display transceiver interface GigabitEthernet 0/0/1 verbose 
GigabitEthernet0/0/1 transceiver information: 
------------------------------------------------------------- 
Common information: Transceiver Type:1000_BASE_SX_SFP   //光模块型号 
Connector Type:LC 
Wavelength(nm):850      //光模块波长 
Transfer Distance(m):500(50um),300(62.5um)   //光模块传输距离 
Digital Diagnostic Monitoring:YES 
Vendor Name:HUAWEI 
Vendor Part Number:02315204 
Ordering Name: 
------------------------------------------------------------- 
Manufacture information: 
Manu. Serial Number:NSK1NNV 
Manufacturing Date:2014-11-09 
Vendor Name:HUAWEI 
-------------------------------------------------------------

(4) 检查光纤连线方式是否正确,光模块一般包含发送端(TX)和接收端(RX)。

光接口对接时需要两根光纤将一端光模块TX端与另一端RX连接,一端光模块RX端与另一端TX连接。

(5) 判断接口是否为Combo接口。

如果是Combo接口,检查接口使用方法是否正确,即接口当前工作模式是否和你当前接口连线是否一致。

如下图所示,Combo接口GE1/0/1在设备面板上对应两个接口:Combo光口和Combo电口。

Combo光口和Combo电口不能同时工作。

当用户需要对Combo光口或Combo电口进行属性配置时,都只需要进入同一接口视图GE1/0/1进行配置。

任意视图下执行命令display interface。

查看接口是否为Combo接口(回显中Port Mode字段),以及当前工作模式是否正常(回显中Current Work Mode字段)。

<HUAWEI> display interface gigabitethernet 1/0/1 
GigabitEthernet1/0/1 current state : DOWN 
Line protocol current state : DOWN 
Description:HUAWEI, Quidway Series, GigabitEthernet1/0/1 Interface
…… 
Port Mode: COMBO AUTO      //Combo口工作模式一般有三种 
                              COMBO AUTO:自动选择接口模式;
                              FORCE FIBER:强制选择光口模式;
                              FORCE COPPER:强制选择电口模式。 
Current Work Mode: COPPER    //当Port Mode显示为COMBO AUTO时,
                                 此处表示当前实际自动选择到的工作模式,
                                 COPPER:电口模式;FIBER:光口模式
Speed : 100, Loopback: NONE 

3. 故障恢复方法

(1) 根据硬件查询工具,确保当前使用的光模块与光口匹配,光模块与光纤匹配,如果不一致,请更换相应部件。

(2) 如果链路两端光模块参数不一致,请更换相应部件。

(3) 确保光纤连线方式正确。

(4) 如果当前接口为Combo接口,确保接口当前工作模式和你当前接口连线一致。

  • Combo接口工作模式选定原则

当指定Combo接口工作模式为自动选择模式时(接口视图下执行命令combo-port auto,默认设备 Combo接口工作模式为auto),

系统将检测Combo光口是否有光模块插入,进行模式选择。

综上所述,Combo接口工作模式为自动选择模式时,只要Combo光口已插上光模块,则设备重启后,Combo接口都将选择光口模式。

因此你可以根据连接介质(光纤或者网线)的实际情况,决定是否在Combo光口上插光模块。

当Combo接口的工作模式设置为强制模式时,需要根据本端与对端设备连接的接口类型进行配置。

本端与对端设备连接的接口类型

  • 配置方法

当确定正确的连接介质后(光纤或者网线)后,就可以确定Combo口正确的工作模式。

你可以直接使用命令combo-portcopper,强制配置接口工作模式和连接介质保持一致即可。

05 如何定位并恢复由环境因素导致的接口物理DOWN故障

1. 原因描述

设备在网络中的部署位置是多变的,因此设备的使用场景复杂多样。

当设备及其连接介质由于环境因素导致异常时,接口状态也可能物理DOWN。

2. 故障定位方法

(1) 检查机房温度及湿度状况

S交换机工作环境温度:0℃~45℃,相对湿度在5%RH~95%RH之间,不结露。

(2) 检查线缆布放状况

电源线与业务线缆分开布放。

不能出现强弱电线缆并行的情况,防止干扰。

检查是否有高温或者机架磨损导致网线破损老化的问题。

3. 故障恢复方法

(1) 如果机房的环境温度长期不能满足要求,应该考虑检修或更换机房的空调系统。

(2) 如果机房的相对湿度过大,应该考虑为机房安装除湿设备;如果机房的相对湿度过小,应该考虑为机房安装加湿设备

(3) 如果出现强弱电线缆并行现象,请重新部署线缆走向,使强弱电线缆分离。

如因环境因素导致网线损伤老化,请更换网线。

整理:老杨丨10年资深网络工程师,更多网工提升干货,请关注公众号:网络工程师俱乐部

猜你喜欢

转载自blog.csdn.net/SPOTO2021/article/details/131514244