问题描述(故障现象)
1、电信XX机房设备停电,电源供电设备异常,导致机房所有设备异常掉电。
2、设备供电正常后,传输中兴ZXMP S385设备重启,但是监控正常,没有发现异常单板告警,但是相邻站点光板大约每隔30秒左右会闪报帧丢失告警,业务不通。
组网环境
此站点是环网中的站点之一。
原因分析
1、设备异常掉电,可能电压不稳地,导致设备工作异常。
2、设备异常掉电可能导致部分单板工作不稳定或单板损坏,找到故障板进行更换即可恢复业务。
解决方案
1、测试电压,为-52.4V,电压正常。咨询用户,同一机房其他设备已经工作正常了。
2、设备掉电重启,业务还是不通。
3、怀疑部分板件损坏和异常,从其他站点调来备件,更换了交叉板、光板、电源板问题依旧。
4、分析网管告警,没有异常单板告警,重新下发数据库,业务还是不通。检查告警只是相邻站点光板大约每隔30秒左右会闪报帧丢失告警。
5、怀疑某个单板干扰其他单板工作。现场将所有单板拔出,至接一块光板、一块交叉板、一块电源板SCIB或QXI,业务不通,更换槽位,继续测试,还是业务不通。
6、赶往现场,发现交叉板每隔30秒左右会自动复位一次。交叉板工作状态不正常,运行灯长亮。单板没有正常运行。其他单板指示灯状态都正常,运行灯1秒闪一次。再次测试电源正常,更换交叉板,还是每隔30秒左右会自动复位一次。拔出单板,没有查看背板指针,没有异常。
7、交叉板自检完成后,网管查询交叉板版本正常,S口通信正常。网管上将交叉板删除,重新配置基本数据,交叉板指示灯状态恢复正常,运行灯1秒闪一次,测试业务恢复正常。说明交叉板在重新配置数据之前,交叉板没有能够从NCP板读取到正确数据,每隔30秒左右会自动复位一次,正好验证这一点。设备异常掉电后,交叉板基本数据被破坏,设备重启后,此故障只有交叉板无法从NCP板获得正确数据。
注意事项
1、设备掉电后,NCP板部分数据被破坏。此次只有交叉板数据被破坏,重新下载数据库,业务也无法恢复。重新删除交叉板数据,重新配置交叉板数据,单板才工作正常。
2、单板每隔30秒自检一次,说明该板自检不通过或者没有从NCP板读取到正确数据。此故障概率很小,也为我们提供了解决问题的一个思路。