服务热线
189-2347-0832

中兴S385 您当前所处位置: 首页 > 新闻资讯 > 行业技术

OSN1500设备SSN2EGS2单板反复上报commu_fail告警

发布时间:2018-05-11

问题描述

SSN2EGS2单板在OSN1500网元上正常运行两个多月后,出现反复上报COMMU_FAIL、LP_SLM_VC12、ETH_LOS告警并且业务中断的问题。在现网进行了软/硬复位单板、拔插单板操作,均无法解决问题。


告警信息

COMMU_FAIL、LP_SLM_VC12、ETH_LOS。


处理过程

1、更换单板为SSN1EGS4等数据单板,SSN1EGS4上软件做了防协议报文冲击的保护机制,所以更换单板后问题得到解决。

2、SSN2EGS2单板软件升级到5.51版本以上。


根因

分析单板的黑匣子,发现debugbuf.log中记录了大量单板软复位的记录,可见的确是不断的软复位造成了单板反复上报COMMU_FAIL告警,这个告警表示主控与数据板的以太通讯通道发生了中断。由于SSN2EGS2这个单板比较特殊,软复位和硬复位的效果一样,都会中断业务。所以,现网EGS2单板发生反复复位故障时,业务是会反复中断的。而反复上报的LP_SLM_VC12、ETH_LOS告警,也是单板反复软复位所导致。

从debugbuf.log黑匣子记录来看,是单板收到了大量协议报文,导致单板CPU占用率过高,从而发生复位。SSN2EGS2单板所采用的5.50版本软件没有做防协议报文冲击的保护机制,当网络上可能因广播风暴产生大量协议报文时,CPU会无法承载负荷而复位,从黑匣子记录也可看到软狗复位时处理协议报文的进程占到了高达47.63%的CPU资源。所以重新拔插单板后,协议报文冲击未解除,EGS2单板依旧会发生复位问题。


建议与总结

在应用支路SNCP配合ODUkSNCP特性时,要注意两种SNCP叠加配置方案的细微区别,这会对客户侧设备造成不同影响。特别是A公司的SDH设备在全球存量极大,做对接测试要注意这个问题。