问题描述
移动网络汇聚环网使用OSN7500设备组成2.5G速率复用段环,已经进行过ECC网络优化,每台OSN7500设备配置为网关网元,与其下带的接入环网元组成一个ECC子网,每个ECC子网不超过70个网元,某日光缆割接后网络发生ECC风暴,大部份网元无法从网管监控,网管上报大量的NE_NOT_LOGIN告警。
告警信息
NE_NOT_LOGIN
处理过程
1、逐个站点查询OSN7500设备的ECC路由表,发现全网500多个网元的ECC互通。
2、检查各环网间ECC互通端口,确认是通过汇聚环OSN7500设备工程新扩容的N1SL16板光口连接的,但这些光板虽然已经上电,并没有在网管上配置逻辑单板,无法在网元管理器的DCC端口管理中查看或操作端口状态。
3、使用命令行将新扩容的N1SL16板光口端口ECC设置为禁止状态,各子网间ECC连接被关闭,使各ECC子网互通网元数小于70个。
4、检查确认ECC风暴已经结束,网管对网元的监控恢复正常。
根因
1、出现ECC风暴一般是互通ECC的网元数量过多,ECC路由振荡导致。
2、前期对此网络已做过ECC优化,各ECC子网间互联的的DCC端口已经关闭,正常情况下不存在ECC互通的情况。
3、检查发现OSN7500设备上新扩容了N1SL16光板,已经上电,并已经连接好各OSN7500设备间的光纤,但没有在网管上配置逻辑单板。
4、在NGSDH中,ECC通道分配采用顺序分配原则:先插入的光板、通道先分配,后插入的光板、通道后分配,直到该类型的所有通道分配完为止;而且不再为槽位和光口保留通道,也就是说当某板被拔走后,原来给该板分配的通道随即被释放。
5、所以虽然未在网管上配置N1SL16光板,但此光板上电后,设备即自动为光板分配了ECC通道,从而导致各ECC子网被连通,形成ECC巨网,引发网络的ECC风暴。
建议与总结
建议工程中新扩容的光板在割接入网前,禁止连接光路,避免ECC互联的情况发生。