服务热线
189-2347-0832

中兴S385 您当前所处位置: 首页 > 新闻资讯 > 行业技术

传递K字节错误,引起复用段协议异常,导致OSN3500业务中断

发布时间:2018-05-26

问题描述

#1600开发区汇聚OSN3500设备与#1602文化路汇聚设备组成了双纤双向复用段环 

  

某日晚20:44:28,#1600开发区汇聚-1(市区汇聚10)8板N1SLQ16上报COMMUN_FAIL(串口通信失效告警)。 

20:46:09,  8板位-N1SLQ16上报BD_STATUS (单板不在位告警)。 

20:46:10,网元上报MS_APS_INDI_EX,APS_INDI复用段保护倒换告警。此后, 保护倒换恢复,业务正常。 

20:52:23,环网再次发生复用段保护倒换。 

20:52:29,EGS4单板上报TU-AIS告警,业务中断。期间伴随上报17板位GSCC上报HARD_BAD(单板硬件故障告警),告警参数指向 8板位N1SLQ16。 

21:16:57,重启复用段协议后,保护倒换恢复正常,业务逐渐恢复。 


1、#1600开发区汇聚-1(市区汇聚10)8板N1SLQ16上报COMMUN_FAIL(串口通信失效告警)。 

2、#1600开发区汇聚-1(市区汇聚10)8板位-N1SLQ16上报BD_STATUS (单板不在位告警)。 

3、#1600开发区汇聚-1(市区汇聚10)网元上报MS_APS_INDI_EX,APS_INDI复用段保护倒换告警。EGS4单板上报TU-AIS告警 


处理过程

1、首次倒换时, #1600开发区汇聚8板N1SLQ16上报COMMUN_FAIL、BD_STATUS,导致对端#1602上报RLOS告警,引起环网复用段保护倒换,此时的倒换状态是正常的。 

2、二次倒换时,业务大面积中断,  重启全网的保护倒换协议,对#1600与#1602的K字节重新进行了全网重新校验,校验后复用段协议、K字节状态正常,两端的保护倒换状态一致,保护倒换恢复正常。 

3、将K字节信息采集分析,故障原因是1600开发区汇聚8板N1SLQ16硬件故障导致本网元的复用段协议模块的K字节发送不准确,导致对端没有收到正确的K字节,导致两端的协议模块没有按照预定的程序切换交叉页面,引起了倒换失败。具体过程: 

A、#1602 11板位收SF消失,其会向对端#1600 8板位发送“倒换恢复请求”,#1600 8板位收到对端“倒换恢复请求”后会进行确认,并向#1602也发送“倒换恢复请求”。 

B、#1602 11板位收到对端的“倒换恢复请求”后也会进行确认,同时通过11板位发送“切换空闲状态”给命令给#1600的8板位,#1600的8板位收到“切换空闲状态”后进行倒换状态恢复,下发交叉页面,本端恢复正常状态。 

C、同时#1600的8板位也会发送“切换空闲状态”命令给#1602的11板位,#1602的11收到“切换空闲状态”后,本端也进行倒换状态的切换,下发交叉页面,恢复正常状态,最终使得整个环网的倒换恢复正常。 

 但当时故障产生时的情况:由于8板N1SLQ16 瞬报单板不在位,#1602的RLOS瞬间消失,环网开始进行倒换恢复。 D、板N1SLQ16硬件故障导致其发送的“倒换恢复请求”变成了“切换空闲状态”的命令,导致#1602直接由“倒换态”变成了“空闲正常态”,而对端#1600网元此时还处于“倒换态”,引起双方倒换状态不一致,导致了业务中断。 


根因

N/A


解决方案

1、由于发生了保护倒换但业务中断,所以怀疑是复用段保护协议异常随即重启全网的复用段保护协议,重启协议后保护倒换恢复正常,业务逐渐恢复。  

2、由于#1600开发区汇聚8板N1SLQ16,N1SLQ16上报COMMUN_FAIL(串口通信失效告警)、 BD_STATUS (单板不在位告警)的异常告警,对此单板进行更换,更换后异常告警消失,保护倒换告警消失,保护倒换结束,复用段环网恢复正常状态。 

3、次日凌晨,做复用段倒换测试,多次倒换测试都正常,业务无中断。 


建议与总结

复用段倒换时,业务大面积中断的故障,可考虑K字节传递异常,或复用段协议异常的影响,造成业务大面积中断,可以果断尝试停启复用段协议的方法,使协议复位,快速回复业务,然后处理其他故障单板。