问题描述(故障现象)
某运营商反馈,一套ZXMP S385设备突然脱管,无法正常管理。
原因分析
网元脱管可能有多方面的原因:
1、网管计算机缺少路由;
2、网元MAC地址重复;
3、IP地址划域不合理;
4、光板收光偏低;
5、NCP单板或者光板故障等。
针对网元脱管问题,可能原因较多,需要逐一排查。
解决方案
1、检查网管计算机路由情况,脱管网元为192域,其他192域网元无脱管。网管计算机有至192域网元的路由;
2、网元MAC地址重复,检查全网网元无网元和脱管网元MAC地址重复;
3、全网IP地址划域合理,符合OSPF划域规则
4、脱管网元更换NCP单板后,网元还是脱管。检查脱管网元东西向OL16单板收光,都在合理收光范围内。复位2块OL16单板,网元还是脱管。排除光板和NCP单板故障和光板收光问题原因。
登录脱管网元东西向的网元,使用ifcongfig -a命令查询,发现至脱管网元PPP通道是DOWN掉的。问题很可能出现在脱管网元上。
前往现场,使用计算机直接用网线连接脱管网元,现场网管能正常管理脱管网元。使用ifconfig -a查询,发现所有光口都没分配到地址,只有一个NCP地址。怀疑是某块单板故障,导致HDLC总线被占用,NCP无法分配光口地址。
决定凌晨现场插拔所有单板,后插拔一块OL4单板后,网元恢复正常监控。
注意事项
网管脱管时,需要排查多方面原因。与网元监控无直接关系的其他单板,都有可能造成网元脱管。