• 您好!欢迎进入深圳市华讯佳科技有限公司官网!

    15088181811
您当前所处位置: 首页 > 新闻资讯 > 华为案例

接入以太网业务协议报文冲击导致N2EGS2板频繁瞬报BD_STATUS、COMMUN_FAIL告警

发布人:华讯佳 更新时间:2023-12-25 点击数:

问题描述

OSN3500设备30槽位EGS2板每间隔约半小时同时瞬报一次BD_STATUS、COMMUN_FAIL告警,单板出现复位,业务出现瞬断。


告警信息

EGS2板上报约没半小时瞬报一次BD_STATUS、COMMUN_FAIL告警。


处理过程

1、单板上报BD_STATUS告警,怀疑为单板故障,更换单板后约半小时故障重新。

2、怀疑为槽位问题,对单板更换槽位,但是更换后故障依然。

3、怀疑为以太网接入业务存在环回或异常,采集数据进行分析,通过命令行:mon-show-cpu:30命令返回值中可以看出单板CPU占用率非常高,其中tRstpBpdu任务CPU占用率高达77%,而单板空闲任务VIDL CPU占用率为0%,导致单板清狗任务无法执行,致使单板发生软狗复位,上报COMMON_FAIL告警,同时造成业务中断。

TASK-NAME  SWITCH-COUNT  MIN-TIME MAX-TIME RECENT-TIME TOTAL-TIME(us) PERCENT   

tRstpBpdu  1181          74       10178    7556        10439226        77.82% 

VIDL       0             0        0        0           0                0.00%

4、对以太网输入口业务进行归类,将存在以太网环路或有协议报文的业务割接至其他单板端口上后,告警不再上报,问题解决。后期将EGS2板单板软件统一升级为5.53后问题彻底解决。


根因

1、单板故障。

2、槽位故障。

3、接入业务存在异常。


建议与总结

EGS2板收到外界发送的大量生成树协议报文后,会导致单板CPU占用率过高,单板发生软狗复位,造成这种故障一般有两种情况:

1、外部网络往单板发送大量生成树协议报文。

2、外部网络往单板发送少量生成树协议报文,但是整个网络存在物理环路。

EGS2板在5.53版本及以版本对协议报文进行限速操作,可以从根本解决该问题。