问题描述
OSN3500网关网元异常脱管,业务正常,一会儿自动正常监控,查询网元侧历史告警返回为空,用户需要分析原因。主机版本5.21.18.50P01,主控型号为SSN4GSCC。
告警信息
GNE_CONNECT_FAIL、NE_COMMU_BREAK
处理过程
1、由于该网元是网关网元,所以建议用户ping一下对应IP,用户反馈还未来得及ping测就已经恢复监控;
2、建议用户将该网元主用网关修改为其他网关网元,然后将连接设备的网线接入电脑进行长ping,看是否有丢包或中断情况,长实践测试发现DCN没问题;
3、相邻网元没有异常告警并且业务正常,排除网元掉电问题;
4、由于查询网元上历史告警返回为空,所以怀疑主控板复位,采集errlog复位记录返回研发分析,发现存在平台tVos1s任务复位,如下图红色部分;
5、咨询研发得知,对于SSN4GSCC,主机18.55以前版本存在已知平台问题:8560diab编译器数组初始化--tVos1s异常复位;
6、触发主机复位的条件是:无CPU单板比如PIU、AUX等频繁复位引起的小概率事件。
【解决方法】升级至V1R8C02SPC500(5.21.18.55)版本解决。
根因
1、用户DCN问题;
2、设备掉电;
3、主控板复位;
4、主控板故障。
建议与总结
建议发布预警,不然一线工程师很难判断和定位故障,影响故障处理及时率。