问题描述
华为波分6800设备TQX+NS3单板配置扩展板内1+1保护,传输承载阿朗路由器10GELAN业务时,波分设备发生保护倒换过程中,阿朗路由器出现异常丢包并有local_fault告警。
告警信息
阿朗路由有:local_fault。
处理过程
1、从测试结果的丢包分析,路由器持续2.3秒没有收到包,推断:路由器发生协议Down,重启时间大于2S,其丢包数及倒换时间无法真实反映波分保护倒换性能;
2、分析路由器日志文件,在保护倒换期间,路由器收到波分单板下发的LocalFault信号,导致路由器Down.路由器出现Flap。
3、单板在检测到上游客户侧异常或本端波分侧异常时,会向对端客户侧设备下插LocalFault信息,告知对接设备信号异常。波分配置保护场景情况下,波分保护倒换时间小于50ms,在倒换期间,信号劣化或异常,波分单板向路由器下插LocalFault信号,此时,端路由器应该设置Holdoff-time,确保在波分发生保护倒换期间,不发生路由器Down。查询路由器设置,没有设置holdoff-time。设置时间为200ms(大于等于2倍50ms时间)。
4、再进行拔纤倒换,路由器没有出现丢包,满足客户要求。
根因
测试业务采用路由器20ms周期Ping包方式;
同时拔出DCP单板的RI和TO口光纤,保护组发生双端倒换。
对接倒换组网图如图一。
现网是通过路由器Ping包方式测试保护倒换时间,Ping包的原理是发送并确认接收正常,完成Ping包测试。测试过程是双端拔纤,触发双端保护倒换,线路双端中断。
倒换时间分析:
1)A至B间双向断纤,假设波分检测到断纤的时间差为:(T2-T1)<(T3-T1),如图二。
从A点->B点周期间隔Ping包,依赖A->B和B->A方向业务都正常,才能Ping到包。故至少在(T4-T1)时间段内,Ping包会丢包。Ping包丢包时间小于A、B两端倒换业务中断时间之和。
2)A至B间双向断纤,假设波分检测到断纤的时间差为:(T2-T1)>(T3-T1),如图三。
从A点->B点周期间隔Ping包,依赖A->B和B->A方向业务都正常,才能Ping到包。当T2-T3<Ping包周期时,在(T4-T1)时间段内,Ping包都可能会丢包。
Ping包丢包时间大于A、B两端倒换业务中断时间之和。约等于两次保护倒换时间加上拔纤时间差。
业务中断最大时长:倒换时间约等于两次倒换时间+拔纤时间差之和。波分配置保护场景情况下,波分保护倒换时间小于50ms,在倒换期间,信号劣化或异常,波分单板向路由器下插LocalFault信号,使路由器Down.丢包和Flap.