问题描述
对OSN7500设备做交叉板倒换测试,当业务从9板位倒换至10板位时,10槽位交叉板上报BUS_ERR告警,7槽位线路板上报CHIP_FAIL告警,业务中断,紧急将业务重新倒回到9槽位后业务恢复。OSN7500主控版本为5.21.19.14。
告警信息
交叉板上报BUS_ERR告警;
线路板上报CHIP_FAIL告警;
处理过程
引发此问题时由于只是批次内的线路板和部分交叉板配合的问题,如果之前运行正常,发生交叉倒换后出现故障,可以将业务重新倒回到原工作单板或直接更换问题交叉板。对于SSN1SLQ16单板目前升级无法解决,如果出现以上故障,只能更换单板解决;SSN1SLT1-B2和SSN3SL16A-B2单板在2010年2月后可以通过升级交叉板的逻辑来解决。
根因
经过现场采集数据给公司分析,确认是由于线路板存在批次缺陷导致此问题。
1、生产日期在2009年3月~10月间的SSN1SLQ16-B2、SSN3SL16A-B2及SSN1SLT1-B2单板可判断为隐患单板;
2、配合R9C04&R9C02&R9C02SPC010版本在7500或3500网元上使用的SSN1SLT1-B2、SSN3SL16A-B2、SSN1SLQ16-B2单板可能会引发此问题;
3、发生故障时,同一网元上只有SSN1SLT1-B2/SSN3SL16A-B2单板上报CHIP-FAIL告警,交叉单板上报此类单板对应的BUS-ERR告警,其它类型单板没有类似问题;
4、交叉主备倒换时,由于交叉单板差异,SSN3SL16A-B2、SSN1SLT1-B2、SSN1SLQ16-B2单板可能业务不通。
由于SSN3SL16&SLQ16部分B2类型单板的38M与2K时钟时序紧张,造成38M采样2K出现错误,锁相环失锁,交叉单板上报BUS_ERR告警;此问题属于单板硬件问题,单板上电后就会一直存在,如果上电时没有问题,运行中不会出现问题;当发生交叉板倒换或更换交叉单板可能会引发此问题。
建议与总结
对于现网上较多的不同版本的NGSDH产品,建议客户一季度做一次全网倒换测试,可以及时发现网络隐患,减少一线的维护压力。