服务热线
189-2347-0832

中兴S385 您当前所处位置: 首页 > 新闻资讯 > 行业技术

SSN4EGS4单板不定期上报HARD_BAD告警问题的处理

发布时间:2018-04-02

问题描述

运营商中心机房OSN3500设备配置了4块EGS4单板与数通CE对接,承载3G业务。5、6板位EGS4配置为BPS保护;13、14板位EGS4配置为BPS保护,5、13板位为主用。某日客户反馈该站点主控板上报HARD_BAD告警,告警参数为0x0e0xff0xff0xff0xff,告警上报持续2-3小时后自动消失,同时有BPS状态事件上报。业务未受影响。

该站点使用N4EGS4单板多板ID配置为N3EGS4单板使用。

主机版本为:5.21.18.50;EGS4单板版本为:1.14


告警信息

告警名称:HARD_BAD

告警参数:0x0e0xff0xff0xff0xff


处理过程

1、现场检查与CE连接的尾纤发现尾纤故障,更换尾纤后ETH-LOS告警消失,单板link灯亮。持续观察再未发现HARD_BAD告警上报。

2、该问题需要将N4EGS4单板软件升级到1.15及其以上版本彻底解决。


根因

1、从告警参数看应该是14板位EGS4单板故障导致,但如果是单板故障怎么会自动消失呢?现场尝试插拔单板、更换单板后故障依旧。排除单板故障因素。

2、因为13、14槽位单板是后期扩容上的单板,因此怀疑扩容时母板倒针。拔下单板仔细观察未发现倒针现象。

3、现场处理过程中发现现网使用的4块EGS4单板中只有14槽位单板上报ETH-LOS告警,并且单板的link灯不亮,因此怀疑是与该单板端口状态异常有关,但是端口异常怎么会导致主控上报HARD_BAD告警呢?

经过最终定位:

SSN4EGS4检测到端口linkdown时,会周期性设置8K线为2k状态值,但每次设2k状态前,软件错误地先置了低电平(低电平表示单板故障),并维持了50ms,在这50ms内,主机正好来检测hadbad状态,就会上报hadbad告警。另外,由于8K线状态发生变化,交叉板会因此上报BPS倒换状态事件。

因此该告警属于误报。


建议与总结

发现问题后多进行对比分析,找出故障单板与正常单板的不通之处,对于疑难杂症可以向二线专家及研发求助。