问题描述(故障现象)
ZXCTN 6500升级,涉及5个镇区,16台设备。5:30分升级结束时发现部分网元脱管,主要是中兴6100设备。
组网环境
镇区汇聚环都与桥接点ZXCTN 6500相连,镇区监控通过移动DCN网连接服务器
原因分析
1、 升级后造成镇区路由互通问题 ZXCTN 6500升级后,端口DCN默认OSPF是0域,升级前版本默认OSPF区域为2,而现网各镇区是通过子网隔离,子网的OSPF 都是0域,因镇区ZXCTN 6500都与桥接点6500互联,端口的DCN功能没有关闭,升级后的镇区处于同一OSPF区域,造成镇区间路由互通。
2、 部分网元脱管问题 升级后,镇区路由互通,路由表有4000多条,而6100设备的路由表不建议超过500条,因处理能力比较弱,造成,OSPF进程吊死,不能更新路由表,造成脱管,重启ospf进程监控正常。
解决方案
1、在网管ping脱管网元不通,通过TRACE 跟踪只能到临近网元。
2、登录相邻网元查看ospf邻居正常,show ip ospf 网元地址,发现没有学习到该网元的路由,通过show ip route发现6100设备上有4000多条路由,路由表明显异常
3、通过clear ip ospf process 进行ospf进程,但由于路由表太大,造成无法刷新一直无法监控。
4、关闭镇区6500与桥接点6500互联10G端口的,DCN功能后,各镇区的路由表正常。
5、脱管网元,通过重启ip ospf process后,大部分网元恢复监控。
注意事项
1、全网进行排查,关闭不用作使用DCN监控网元端口的DCN功能,ZXCTN 6200/6300升级到2.1版本,都支持此功能。
2、避免类似本次故障的发生,保证全网监控的稳定,建议对各镇区接入环进行划分OSPF域。