问题描述(故障现象)
某运营商本地网A站点ZXMP S385设备在停电掉电后,来电重新上电恢复后网管上网元不能正常监控,业务不能恢复。
原因分析
中兴ZXMP S385设备有18,19两个NCP槽位,于是我们将NCP从之前的18槽位换到19槽位,然后再次进行测试,结果每次重新上电都能正常运行,于是故障原因找到,问题解决。由于18#NCP槽位有故障造成了该中兴S385设备掉电后重新上电业务不能恢复以及不能监控的问题。
解决方案
问题发生后,由于是掉电之后的恢复,首先怀疑是电压不稳定或电压不足造成,在现场对电压进行测量,结果正常。进一步推断会不会是NCP本身有问题,造成上电后不能正常运行,但是经过拔插后又能恢复正常,感觉不能准确定位。所以该故障的原因排查需要现场进行问题的浮现。
如图示,我们知道设备重新上电的时候,业务单板,交叉板等需要从NCP获取数据才能恢复业务,该问题可以断定的是肯定是NCP在故障时没有正常运行造成业务不能恢复以及不能监控。于是我们在现场可以通过对NCP进行复位的方式对故障现象进行浮现。
随后在现场对NCP进行插拔的方式进行复位,复位后NCP正常运行,没有出现问题,以往处理问题的经验告诉我们有些问题可能是几率性的,于是我们再次对NCP进行复位,这次故障重现了,NCP不能正常运行,运行状态指示灯长亮。随后对NCP进行了多次的插拔复位,发现有较大的几率出现NCP重新上电后不能正常运行的情况。所以我们可以初步判断为NCP故障的可能性很大。于是更换一块NCP进行观察,再次进行反复的插拔复位,发现仍然有较大的几率出现相同的问题。此时我们基本可以断定是NCP的槽位有问题。
注意事项
网元上电的时候业务单板需要从NCP获取配置数据,此时如果NCP不能正常运行或者NCP的数据不正确则会影响业务。由此故障的排查我们可以得到经验,在某些情况下我们可以通过其他的方式来浮现故障现象而减少故障处理过程对现网业务的影响。