问题描述
一套OSN7500设备为网关网元,主机版本为5.21.16.13。做为网关网元可以登录且可以PING通,但发生过5、6次所有下挂的网元无法登录。当25槽位主控板做为让主用时,下挂网元全部脱管,进行硬复位,故障仍不解决。切换到24槽位为主用时,下挂网元全部可以登录。
处理过程
1、 查询主机版本,刚开始怀疑为序号SC0000385405的预警问题:SSN3GSCC在网关网元上使用时导致网元脱管问题。
2、 根据预警判断方法,telnet上主主控,未发现有预警中蓝色字体的打印信息。
3、 硬复位或插拔主控单板无效,怀疑为硬件故障。
4、 最后更换主控板后故障解决。将故障单板返回公司分析。
根因
1、线路ECC误码导致网元脱管。
2、ECC震荡导致下挂网元脱管。
3、主控板故障导致网元脱管。
4、主机版本缺陷导致网元脱管。
建议与总结
根据公司重现故障分析得出原因:通过返回的参数转换成HEX可发现如下错误规律:错误都是每隔31个字节在BIT3(即每隔2Mbit)由0跳变到1。从以上现象确定是OSN7500主控由于CPU处理接收D字节的数据区有故障,导致接收下带网元的ECC数据BIT有跳变,存在误码,从而引起ECC通信不正常,下带网元就会脱管。