问题描述(故障现象)
A-B-C-D四台中兴ZXMP S385设备组成一个2.5G速率的二纤双向复用段保护环,B站点下挂的的接入环设备ET1上报不可用秒告警,并伴随有背景块误码和误块秒。
组网环境
A-B-C-D四台ZXMP S385设备组成一个2.5G速率的二纤双向复用段保护环,其中A和B分别下挂有几个接入环
原因分析
1、线路问题;
2、光板问题;
3、交叉板问题;
4、时钟板问题;
5、外部环境温度过高。
解决方案
从受影响业务的经过路径和受影响范围分析,故障业务路由均经过A、B和C三个站点,因此,故障只可能出现在A、B和C三个站点。
下面以1月13日15:00至15:30时间段做故障分析:
(1)查看故障发生时A性能和告警,发现与B相连接的10#OL16光板上检测到大量的VC4误码,但是没有再生段或复用段误码,说明光路正常;
(2)同时交叉板上检测到大量的TU12-LOP告警和VC12误码率越限告警;
(3)查看故障发生时C性能和告警,发现与B相连接的7#OL16光板检测到大量的VC4误码,但是没有再生段或复用段误码,说明光路也正常,同时C交叉板上检测到TU12-LOP告警和VC12误码率越限告警;
(4)根据传输系统对误码的检测机制,传输设备只对接收到的信号进行检测,对自身发送的信号不检测,所以某个站点出现误码,要么是接收过来的信号带有误码,要么是设备自身产生的误码;
(5)从以上告警及性能分析,A检测到的误码如果是在自身产生,误码并不会对B下挂的网元造成影响,因为B下挂网元的业务路径没有经过A,故不可能是A导致;
(6)分析C的情况:与C相连的光方向中,有上连核心网络的2.5G光路、下挂S200的155M光路、以及某片区汇聚环组网的2.5G光路,除了收B的方向7#OL16光板检测到误码外,其他方向都没有检测到误码。同时检查C下挂的ZXMP S200网元,也没有发现误码,所以C的问题导致故障的可能性比较小;
(7)分析B的情况:查看B的性能,B的各个光方向都没有检测到误码,同时在B下挂的网元,都检测到了误码,说明B接收到的信号都正常,但其他网元接收来自B的信号带了误码。至此,问题的根源定位在B可能性比较大;
(8)通常情况下,造成传输设备产生VC4误码、TU12-LOP告警和VC12误码率越限有以下可能原因:
①交叉板故障
②时钟板故障
中兴S385设备交叉板由空分模块、时分模块、时钟单元模块共同构成。通过检查全网的时钟源配置,发现C从B方向引接线路时钟,如果B时钟单元出现问题,肯定也会影响到C以及C下挂网元的业务,故可以排除B和C时钟单元故障;
(9)由于B和C中兴S385设备的业务均工作在9#槽位交叉时钟板上,且配置的是分散型业务,最终将问题定位在B和C的9#槽位的时分板上;
(10)由于B可能性比较大,决定先对B进行操作。1-15日零点将B的时钟总线、开销、业务总线从9#交叉板倒换至8#交叉板,截止1-17日凌晨1点,没再出现误码。
注意事项
本次误码故障的最终定位为B站点9#交叉板故障,将坏板寄回实验室后测量时分板电源发现,1.2v电源模块M1输出电压异常,为0.94v,这个电源模块给时分芯片供电,电压偏低会导致芯片工作异常,业务中断。而且现网的交叉板版本不支持低电压倒换机制,最新的交叉板版本(V3.20R1P04)支持低电压倒换机制,当M1输出电压降低到0.97V左右可以倒换,并上报“单板运行不正常告警”。