问题描述(故障现象)
1、省干ZXCTN 6500-1的44槽位1口和45槽位1口组成一个聚合组与华为SGW对接,开通一段时间后出现隔一两天报 二层BFD检测回话状态down告警,持续时间3秒中左右,导致smartgroup接口失效告警,并触发FRR切换;另外一台PTN-2设备也有同样的端口与这台SGW对接,告警现象一致。
2、查询端口,没有光功率异常和以太网端口未连接告警:
3、BFD配置正常间隔为100ms,倍率3;BFD配置数据正常。
原因分析
1、省干维护工程师首先查询省干光功率和设备其它相关告警性能等,均未发现异常告警,光功率正常,且未出现以太网端口down等告警,也没有光路误码,说明连接的物理链路是正常的,只是因为BFD检测报文发出的接口状态down告警。
2、省干PTN请中兴研发工程师远程登陆到两台PTN设备进行底层命令查询,经过排查,BFD数据未见异常,省干PTN设备正常。
3、通过统计查询省干西区PTN-1和省干西区PTN-2两台设备的告警,发现一个规律,所有BFD告警产生时间 和消失时间在省干两台设备上几乎都是同时(即PTN-1报告警的同时PTN-2上也同样报告警),最多差1-2秒钟。由此可以判断,应该有同一个故障源导致了省干两台设备同时报此告警,否则两台设备之间没有任何协议,告警如何能实现同时上报呢。通过分析判断,BFD闪报告警问题很可能由SGW引起导致。
解决方案
故障分析
1、省干维护工程师首先查询省干光功率和设备其它相关告警性能等,均未发现异常告警,光功率正常,且未出现以太网端口down等告警,也没有光路误码,说明连接的物理链路是正常的,只是因为BFD检测报文发出的接口状态down告警。
2、省干PTN请中兴研发工程师远程登陆到两台PTN设备进行底层命令查询,经过排查,BFD数据未见异常,省干PTN设备正常。
3、通过统计查询省干西区PTN-1和省干西区PTN-2两台设备的告警,发现一个规律,所有BFD告警产生时间 和消失时间在省干两台设备上几乎都是同时(即PTN-1报告警的同时PTN-2上也同样报告警),最多差1-2秒钟。由此可以判断,应该有同一个故障源导致了省干两台设备同时报此告警,否则两台设备之间没有任何协议,告警如何能实现同时上报呢。告警截图如下图:
故障处理
1、SGW更换单板后故障恢复,由此验证了我前面的判断。