今天遇到了一个网络故障,表现是某个区域断网,其它区域正常。断网的这个区域对应的都是某交换机下的某个端口。
一般如果交换机是傻瓜式交换机,排查时间可能会更久一些,特别是没有做线路标识的地方,单单是判断是哪一条线出的问题,可能都需要较长的时间。对于支持网管功能的交换机,处理起来就容易多了,基本上网管交换机都支持日志功能,在这种情况下,我们先到交换机里面查询一下交换机日志,大致都能判断是什么问题,至少可能会给解决问题带来一些方向。比如今天遇到的这次故障。
我在交换机里面执行了日志查询命令,其中有以下记录值得注意:
记录1:
Aug 1 2024 12:13:11+08:00 SW-NEW %%01IFADP/4/PORTDOWNINFO(l)[53]:Interface GigabitEthernet0/0/24 has turned into DOWN state. (Information=Physical state: down, Negotiation: enable, Negotiation complete: no, Local full-duplex(10M: yes, 100M: yes, 1000M: yes), Local half-duplex(10M: yes, 100M: yes, 1000M: no), Remote full-duplex(10M: no, 100M: no, 1000M: no), Remote half-duplex(10M: no, 100M: no, 1000M: no))
记录2:
Aug 1 2024 12:13:10+08:00 SW-NEW %%01MSTP/4/LOOPBACK_DETECTED(l)[55]:The port GigabitEthernet0/0/24 was blocked because it received the BPDU packets sent by itself.
记录3:
Aug 1 2024 12:13:10+08:00 SW-NEW %%01MSTP/4/EDGE_PORT(l)[56]:Edged-port GigabitEthernet0/0/24 received BPDU packet, then the active state of the edged-port will be disabled!
以上3条记录,出现的时间刚好就是断网的开始时间,从这里大致可以了解故障的原因:那就是可能存在环路,端口被关闭。其中,GigabitEthernet0/0/24 就是断网区域所对应的端口,记录3表示该端口接收到了BPDU报文,边缘端口的属性将会被禁用,记录2表示该BPDU报文可能是自己发送自己接收的,若真的存在这种情况就会判定为环路,导致端口被禁用;记录1显示端口GigabitEthernet0/0/24已经被禁用了。
后面到端口所对应的现场查询,果真发现现场有人乱接网线。经过问题线路整治之后,问题解决,同时也对现场乱接线的人员进行了批评教育。