问题描述(故障现象)
多端中兴S385设备和中兴S330设备混合组网,中兴ZXMP S385设备的SEE板和中兴ZXMP S330设备的SFEx6板组成以太网环网业务。SFEx6板启用生成树协议,SEE板未启用生成树协议,SEE板配置的是EVPLAN业务。
某日多端中兴S330设备(无规律的分布于网络)的SFEx6板陆续上报“单板运行不正常”告警,告警持续时间1分钟左右,后自动消失。SFEx6板配置了单板的1:N保护,尽管其发生了单板的保护倒换,但该SFE板上的所有业务还是都出现了瞬断。第二天,瞬间上报“单板运行不正常”告警的SFEx6板有逐渐增多的趋势,影响的业务也越来越多。
原因分析
经过了解,故障发生前,该网络没有进行网络改造,即网络拓扑无变化,也没有新增业务,如新增接入交换机等等。受到影响的业务主要是“电力远动”业务,该业务承载在全网多端中兴S330设备的13#SFEx6板上。查看历史告警,发现电力远动主环从23日凌晨2:52开始,环上的13#SFE单板开始间歇性的上报“单板运行不正常”告警,
同时这些中兴S330设备的CS板上报“背板总线错”告警,端口号是77~80,这些端口刚好对应于13#槽位。
查看历史性能发现环上SFEx6板的系统口接收到的帧数从23日凌晨1点开始异常,数量比正常情况下多出很多并且一直持续,其中多播帧数增加很多。
因此怀疑SFEx6板的生成树发生异常,已经形成广播风暴。
查看各个SFE板的网桥运行状态,发现并没有找到BLOCK端口,可以证实确实以太网业务成环了。业务成环后,大量的异常报文在环内风暴,对SFE板的交换芯片造成了冲击,导致交换芯片异常,SFEx6板自动发生复位。在SFEx6板自动复位期间,NCP板就检测到了其“单板运行不正常”告警,CS板就检测到了其“背板总线错”告警。
在客户的配合下,在网管上禁用了环上一个站点的SFE板的系统端口,强制破环,环上SFE单板不再上报异常告警。随后逐个确认各个站点的业务恢复情况。最终确认只有ZHB站(中兴S385设备)这一个站点的业务不通,并且需要经过ZHB站的业务都不通。ZHB站(中兴S385设备)配置的是14#SEE板,中断14#SEE板的西方向的VCG口,将ZHB站置为环网的最尾端结点,这样对其它站点的业务不会造成影响。
同时进行了抓包分析,经客户确认,抓到的报文里有很多异常的IP地址,如“192.162. x.x”、 “192.168.x.x”、“64.40.x.x”,这些IP地址不应该存在于客户的网络中。手动将环网破环后,虽然除了ZHB站外其它站点的业务均恢复正常,但抓到的报文显示仍然存在异常的IP地址,因此可以确定网络中仍然存在异常的报文源。
25日重点对ZHB站的14#SEE板进行了分析,初步确定此SEE板存在异常。经过此SEE板的报文内容可能被异常修改,所以不管手动破环前后,环上都可以抓到异常报文。由于生成树协议报文不能正常通过,导致业务成环。
另外从ZHB站两端对接的以太网板的性能也可以确定此站点SEE板发出的报文存在异常。通过ASCII码流可以查到ZHB站东向的TJW站有不断收到异常帧并丢弃(TJW站也是SEE板,网管上不统计系统口的异常丢弃帧数),西向的基站21的系统端口从23日凌晨1点开始持续有接收帧被过滤数,如下