问题描述(故障现象)
某日,全网14端中兴S385设备的ANCP板陆续上报部分光板的S口通讯错告警。只有ANCP板上报该告警,ENCP板没有上报该告警。ANCP板的软件版本是V3.01R1P18。
当ANCP板上报该告警时,告警来源板的OL64、OL1光板无法查询到光模块的收发光功率以及该光板的软硬件版本。复位ANCP板后,S口通讯错告警会消失,但过段时间又会自动产生,告警产生至告警消失的时间间隔无规律。
原因分析
仔细分析告警的来源光板,发现不是所有的光板,告警的来源光板的型号是OL64FA和OL1ZC8A,即单板名称后缀为A的光板。
12#槽位的光板OL1ZC4没有上报S口通讯错告警。查询其软硬件版本和光模块的收发光功率,都是可以正常查询到的。
1#、2#、3#槽位的光板和ANCP之间都有S口通讯错告警,但是用sping命令测试时,发现都是通的。这说明这3个槽位的光板和ANCP板之间的HDLC方式的S口是通的。对所有上报S口通讯错的光板进行sping测试,发现都是通的,即所有上报S口通讯错的光板的HDLC总线的S口都是通的。
用s-cmd sping命令查以太网口总线的S口时,发现这些S口都不通。逐一用s-cmd sping命令进行测试,发现所有上报S口通讯错告警的来源光板的以太网总线的S口都不通。
OL64FA光板和OL1ZC8A光板都是支持ASON功能的,它们都有两个S口,分别是HDLC总线的S口和以太网总线的S口。当它们和ANCP板通讯时,缺省情况下是采用以太网总线的S口;当它们和ENCP/NCP板通讯时,只能采用HDLC总线的S口。而OL1ZC4光板是不支持ASON功能的,它只有一个S口,即HDLC总线的S口。当它和ANCP板通讯时,也只能采用HDLC总线的S口。
通过上述分析可以得出结论,ANCP板和所有光板的HDLC总线的S口都是通的;但是以太网总线的S口却不通。
那么为什么ANCP板和光板的以太网总线的S口会不通呢?
telnet 上故障ANCP板,输入route命令查询路由表时,发现异常。路由表如图 316所示。路由192.168.1.0的interface(接口)是PPP9,而PPP9是一个通ECC的光口。这个interface(接口)是不正确的。正确的interface(接口)应该是pss0,这是ANCP板和其他单板以太网总线通讯的接口。
ANCP板和本网元的其他单板通过以太网总线通信时,需要使用192.168.1.0这个路由,该路由的正确接口是pss0。 当该路由的接口变为通ECC的光口(即PPP9)时,由于接口的错误,导致ANCP板和其他单板无法通过以太网总线正常通信,从而ANCP板上报了这些光板的S口通讯错告警。
因此,可以确定ANCP板上错误的192.168.1.0路由把正确的192.168.1.0路由给覆盖掉了,那么错误的路由是如何产生的呢?
错误的192.168.1.0路由的interface(接口)是PPP9,PPP9是该ZXMP S385和另外一端ZXMP S385互通ECC的OL64光口。继续telnet上那端中兴ZXMP S385,输入route命令,查看路由192.168.1.0的interface(接口),这样一端设备一端设备的检查,终于发现有一端中兴S385设备的192.168.1.0路由的interface(接口)是和F7的微波设备互联的光口。这说明错误的192.168.1.0路由就是从和F7的微波设备互联的光口学习到的。
解决方案
对和F7的微波设备互联的光口设置DCC端口屏蔽,然后再检查所有S385网元的路由192.168.1.0的接口地址,发现变为正确的pss0了。再复位ANCP板,等ANCP板正常运行后,S口通讯错告警消失了。观察几天后,S口通讯错告警未再出现,故障解决。
注意事项
中兴S385设备的ANCP板和其他单板通过以太网S口总线通信时,需要使用192.168.1.0这个路由,该路由的正确接口是pss0。当中兴S385 设备和其他设备通过光口对接时,请确保路由192.168.1.0不能被其他错误的路由所覆盖。否则ANCP板和其他单板就无法通过以太网总线的S口进行通讯,从而上报S口通讯错告警。