问题描述
由7个OSN3500组成MSTP+网络,有两个核心站点,这两个站点分别配置了到其他5个站点的ELINE业务,并配置了到各个节点的1:1APS保护。某日,其上所有PEX1单板上报MPLS_TUNNEL_LOCV告警,光缆中断时,倒换不成功,业务中断。
告警信息
MPLS_TUNNEL_LOCV
处理过程
1、MPLS_TUNNEL_LOCV为TUNNEL连通性失效,查询各个节点的APS倒换状态,发现2个核心点至其余连续的4个点保护通道和工作通道都失效,至第5节点工作通道坏,保护通道正常。
2、由于是断纤缆导致工作通道坏,怀疑第5个节点2端单板故障。查询其PEX1单板PW端口的RMON计数,发现该端口只存在接收没有任何的发送计数,而对端的PEX1单板PW端口的RMON计数有收有发,我们可以判断该问题的触发因素是由于其PEX1单板导致。
3、查询PEX1单板版本信息,发现PEX1单板的PL280逻辑版本为210,该逻辑版本存在在单板同步以太功能关闭的情况下,无规律发生端口发送方向FIFO堵塞的情况,导致业务中断的问题。触发APS倒换是因为APS保护承载在MPLSOAM协议上,所以发送方向FIFO堵塞会导致MPLSOAM报文无法正常转发,产生MPLSLOCV告警,触发APS倒换。
4、硬复位PEX1单板之后,业务恢复。
5、升级版本至V1R9C03SPC200(5.21.30.15P01)版本(PEX1单板PL280逻辑版本为220版本)彻底解决。
根因
PEX1单板的PL280逻辑版本为210,该逻辑版本存在在单板同步以太功能关闭的情况下,无规律发生端口发送方向FIFO堵塞的情况,导致业务中断的BUG。触发APS倒换是因为APS保护承载在MPLSOAM协议上,所以发送方向FIFO堵塞会导致MPLSOAM报文无法正常转发,产生MPLSLOCV告警,触发APS倒换。