问题描述(故障现象)
中兴ZXMP S385设备13#SEE单板配置开通了一条动环的etree以太网业务,该以太网业务配置了48个叶子节点,某天突然出现该SEE单板承载的以太网动环业务不通。
原因分析
SEE单板以太网业务不通的主要原因一般如下:
1、数据配置问题,尤其是UNI、NNI口的带宽设置,是很多人配置容易忘记的地方。
2、对接问题以及以太网内部环回引发广播风暴导致异常。
由于本次故障是在设备以太网业务开通之后,一般可以排除数据配置问题,由于以太网业务异常,很多是对接问题或者是内部环回引发广播风暴导致异常。
问题2是故障排查的关键。
解决方案
对于以太网不通的问题进行了逐个排查:
1 以太网业务相关告警性能排查,没有发现异常的告警性能。
2 检查以太网数据配置,SEE单板以太网业务配置很简单,就是一个树形业务配置。由于是整个树形业务都异常,这和各叶子节点配置无关。SEE单板配置检查没有发现异常。
从以上的排查来看,SEE的数据配置没有什么问题,初步判断可能是对接问题或者是广播风暴导致业务异常。
需要到现场进行排查。为了排查故障,首先找客户要来动环采集模块的IP配置。
由于该站点动环业务很多,分别挂在三块以太网单板上,现场将13#SEE单板和14#SEE单板网线对调,13#SEE单板的业务依旧不通,排除了对接的问题。因为换了网线后,14#SEE单板的业务是正常的。
于是把在电脑上设置IP和采集模块在同一个段内,ping采集模块,发现异常,采集模块可以ping通,但是有很大的丢包。连续ping了三个不同的采集模块,均是同样的现象。
从ping采集模块可以ping同来看,说明以太网数据配置是正常的,从不时出现丢包,大致可以判断可能是该以太网业务出现广播风暴导致。
出现光播风暴一般是UNI、NNI口出现环回,但是树形业务只有一个UNI口,基本上可以判断是NNI口出现环回。于是在VCG组配置界面,逐个删除VCG组配置,观察电脑PING包情况,发现当删除VCG组40时,电脑ping包恢复正常,不再出现丢包现象。于是将其他删除的VCG组补齐,继续观察,没有在出现丢包,于是将动环业务网线恢复,经客户确认动环业务恢复。
正常运行的以太网业务怎么会突然内部NNI口环回业务不通了呢,于是和客户沟通近期做了什么操作,客户反馈近期由于接入环中一个设备退网,客户将两边光路打通,之后动环就出现异常了。客户在拆除该退网设备时,并没有删除对应的时隙等数据。问题清楚了,由于客户一个设备退网,而这个退网设备是到13#SEE单板以太网业务的一个叶子节点,设备退网后,本应该删除这个叶子节点,但是客户没有删除,导致这个叶子节点内部环回,从而影响了业务。
注意事项
在设备退网后删除数据需要规范操作,不能一退了之。