• 您好!欢迎进入深圳市华讯佳科技有限公司官网!

    15088181811
您当前所处位置: 首页 > 新闻资讯 > 华为案例

误码导致OSN3500设备交叉板SXCSA单板上报BUS_ERR告警

发布人:华讯佳 更新时间:2024-01-06 点击数:

问题描述

1、某客户OSN3500设备交叉板频繁上报BUS_ERR告警


告警信息

1、9-SXCSA单板上报BUS_ERR告警和HSC_UNAVAIL

2、主机版本为5.21.17.31


处理过程

1、首先确认业务,没有中断,9板位交叉板为备板。

2、检查9-SXCSA单板的详细告警信息,首先查看HSC_UNAVAIL告警,其参数为:0x04 0x01 0x09 0xff 0xff

对于HSC_UNAVAIL告警,HSC_UNAVAIL只有备板会上报,该告警的含义如下:

参数1: 表示告警的类型。

0x01表示本板状态坏

0x02表示有业务板检测到本板坏

0x04表示本板检测到2型BUS_ERR

BIT[3~6]:预留

0x80表示备板硬复位成功不足5分钟

参数2: 表示不可用单板的主备状态。

0x00表示主板 

0x01表示备板

参数3:

表示不可用单板的槽位号,取值为0x09,0x0A。0x50,0x51。

3、从上面可以看到可以看到产生此告警为9板位SXCSA单板检测到2型BUS_ERR告警导致

4、查看BUS_ERR告警,其参数为:0x0d 0x04 0x06 0x02 0xff和0x0d 0x04 0x04 0x02 0xff

BUS_ERR告警,该告警的含义如下:

参数 1: 默认表示单板逻辑板位(包括扩展板位)。

若参数4为0x03,那么参数1表示内部总线所在的交叉芯片号。

参数 2: 默认表示在该板位中的总线序号。

若参数3为0x03,那么参数2表示内部总线在芯片中的物理序号。

参数 3: 不同的比特表示不同的告警存在状态。

0x10表示存在BUS_LOS

0x08表示存在FIFO溢出

0x04表示存在B1误码

0x02表示存在BUS_OOF

0x01表示存在BUS_OOA

参数 4 : 表示BUS_ERR的告警类型。

0x01表示I 型BUS_ERR,它是由单块交叉板检测到的。

0x02表示II型BUS_ERR,它是由两块交叉板握手检测到的。

0x03表示III型BUS_ERR,它是由交叉板内部总线检测到的。

参数 5: 无效参数

5、从上面可以看到,是由于两块交叉板握手检测到13板位产生大量误码。其中:

0x0d表示13板位,对应实际单板为SLQ16

0x04代表13板位的第4跟总线,对应实际SLQ16的第4个光口

0x04:表示存在B1误码;0x06(其中06=02+04):表示同时存在0x01的OOF和0x04的B1误码

确认应该是13-SLQ16-4光口不停的产生大量B1误码和OOF导致。

6、查看13-SLQ16的告警信息,发现4光口不停上报R_LOF,经客户确认其承载在其他厂家波分上面,目前波分线路处于割接状态。

7、待波分线路稳定后,检查13-SLQ16-4光口,R_LOF告警消失,性能没有误码,再次检查交叉板的告警,所有告警结束。确认为波分线路割接导致我司设备不停上报R_LOF,从而导致交叉板产生告警。


根因

1、备交叉板故障

2、主备交叉备份状态异常

3、线路误码导致

4、主交叉板故障


建议与总结

1、正常情况线路板上报R_LOF是不会导致交叉板上报BUS_ERR告警的,从本次故障看到,在于其他厂家波分设备对接时,友商波分线路处于异常状态时,我司对接线路板不停上报R_LOF,说明交叉板检测到的状态是时好时坏,从而导致交叉板上报BUS_ERR告警。

2、对于告警参数中“不同的比特表示不同的告警存在状态”的说明:

告警参数0x为固定值,后两位为16进制计数:所以0x10的10对应10进制的16

告警参数后两位是按照2的bit计算:所以告警参数解释只有0x01、0x02、0x04、0x08、0x10(依次对应2的0、1、2、3、4次方)

对应其他告警参数,则是按照bit位进行计算,计算方式为:06=02(2的1次方)+04(2的2次方);05=01(2的0次方)+04(2的2次方);