• 您好!欢迎进入深圳市华讯佳科技有限公司官网!

    15088181811
您当前所处位置: 首页 > 新闻资讯 > 华为案例

升级SDH OSN3500 OSN7500设备时出现ECC风暴大面积网元脱管问题处理

发布人:华讯佳 更新时间:2023-12-25 点击数:

问题描述

某网络NG-SDH设备由5.21.16.13/5.21.17.31版本升级到5.21.18.50P01+SPH001时,出现大面积非网关网元脱管现象,网管上可以登录网元,但不久后又重新脱管。该网络有10个网关网元,均为OSN3500OSN7500,接入层设备多为Metro100,Metro1000等盒式设备,市区环网关网元下挂载网元数量为50个左右,未出现脱管现象,郊县环网关网元下挂载设备大多超过140个,最多的达到184个,出现大面积网元脱管现象。


告警信息

大面积网元在网管上变灰色,呈脱管状态,有网元脱管告警。


处理过程

1、检查网管与网关网元的可达性,用PING命令检查网管与网关之间的网络连通性和丢包率。

2、在网管功能树上选择“通信>网元ECC链路管理”,关闭含有脱管网元子网的环路,把一部分设备从现有ECC网络中完全隔离出来,待ECC不在震荡后,等待15-20分钟然后逐渐放开,当打开的网元数量超过120个左右时,ECC风暴再次出现。

3、与客户沟通,决定临时增加几个主要节点的网关网元重新进行ECC划分,减少当前某些网关的网元挂载数量以解决问题;根据现场可能实现的条件,临时添加了两个网关网元,闪断脱管现象消失,问题得到解决。


根因

初步判断为ECC风暴震荡导致大面积网元脱管,原因为当设备版本由5.21.16.13/5.21.17.31版本升级到5.21.18.50P01+SPH001时,新版本占用了更多的主控板CPU资源,使得主控板CPU处理ECC通信的能力下降,且该网络挂载的网元数量远大于建议规划的64个以下,故形成ECC网络风暴。


建议与总结

设备资料中都有建议的ECC规模说明,虽然超过建议值后也不一定马上就会出现ECC风暴,但新版本一般都带有新特性以及新维护功能,这些功能或多或少会占用主控板以及单板的CPU资源,可能造成其他方面处理能力的下降,所以完全可能出现升级前网络运行正常但升级后出现ECC风暴的问题;进行重大操作签,建议按照公司标准对ECC进行分割,如确实不具备分割条件,请准备好风险防范措施。