问题描述
Metro1000扩容42EFS发现有多台设备上报HARD_BAD告警,复位单板能够恢复,但是过一段时间后还会上报,主机从4.2.6.6升级到4.2.6.41P06支持EFS板,业务没有受到任何影响。
告警信息
Hard_Bad,告警参数为0x11
处理过程
连续三次采集收发两个方向报文统计,发现端口收发包都没有变化,说明该端口在数据采集这段时间内无流量。
故障单板端口收包统计如下:
Bid Pid Chn GroupId DateTime Eid Data-High4Byte Data-Low4Byte
3 1 ch1 grp1 2010-8-3 4:2:0 rxpkts 0x00000000 0x00006f4d
3 1 ch1 grp1 2010-8-3 4:2:3 rxpkts 0x00000000 0x00006f4d
3 1 ch1 grp1 2010-8-3 4:2:6 rxpkts 0x00000000 0x00006f4d
故障单板端口发包统计如下:
Bid Pid Chn GroupId DateTime Eid Data-High4Byte Data-Low4Byte
3 1 ch1 grp2 2010-8-3 4:2:0 txbok 0x00000000 0x01ee9326
3 1 ch1 grp2 2010-8-3 4:2:3 txbok 0x00000000 0x01ee9326
3 1 ch1 grp2 2010-8-3 4:2:6 txbok 0x00000000 0x01ee9326
结合故障单板业务正常、端口流量少的现象,怀疑Hard_Bad告警为误报。
将单板软件降级至V242版本后,HARDBAD告警消失。
根因
Hard_Bad告警参数为0x11,表示单板数通器件异常,单板会在两种情况下上报数通器件异常:
1、单板业务不通或业务单通;
2、单板Hard_Bad告警误报,单板某个端口流量很小、无流量或网线接口异常都有可能导致该告警误报。