• 您好!欢迎进入深圳市华讯佳科技有限公司官网!

    15088181811
您当前所处位置: 首页 > 新闻资讯 > 华为案例

OSN3500掉电重启后上报一系列告警处理

发布人:华讯佳 更新时间:2024-01-10 点击数:

问题描述

OSN3500设备因机房停电掉电,OSN3500恢复供电后主控,交叉,业务板上报一系列告警,导致业务不通。

主机版本:5.21.20.55,单配主控,双配交叉,故障时刻9槽位交叉板是主用。


告警信息

HARD_BAD:

7槽位EGS2参数:0X010X000X060XFF0XFF

13槽位EFS0参数:0X010X000X060XFF0XFF

18槽位GSCC参数:0X020XFF0XFF0XFF0XFF

9槽位SXCSA参数:0X020X000X040XFF0XFF

CHIP_FAIL:

9槽位SXCSA参数:0X000X000X000X010X00

2槽位PQ1

OOL

9槽位SXCSA参数:030001ffff

10槽位SXCSA参数:010001ffff

Temp_over

9槽位SXCSA参数:01000101ff

HSC_UNAVAIL

9槽位SXCSA参数:030109ffff

Bus_err

10槽位SXCSA参数:0d010301ff

Syn_bad

10槽位SXCSA参数:0801ffffff


处理过程

1、现场测试电压-54V,属于正常范围。

2、再次同步核对告警,AUX没有任何告警,结合现场单板指示灯状态正常,如果AUX异常单板是不能开工的。

3、网元上报告警比较多,使用命令行查询单板物理板和逻辑板状态正常,现场反馈板卡指示灯也是正常,考虑到业务是全阻,故主控和交叉板的故障可能性最大。通过分析单配主控的HARD_BAD告警,参数定位是2槽位PQ1异常,主控问题可能性不大。继续分析,发现9槽位(主用)交叉板告警较多。尝试网管倒换复位交叉板失败。

4、网管反馈10槽位交叉板主动变为主用状态,告警条数和参数无变化,网管硬复位9槽位后,告警条数和参数持续不变。

5、网管查询交叉板温度,命令行为(:cfg-get-bdtemp:9),温度是70度,已经超过温度上门限,故上报tempover正常,现场核实机房空调停电后未工作,机房温度较高。故怀疑9槽位单板工作异常,和温度有关。

5、建议现场拔出9槽位观察,同时协调好备件。现场反馈拔出9槽位等待几分钟后,所有告警逐渐消失,核实业务也恢复了。

6、为了准备定位是9槽位交叉板异常就是温度导致(之前单板持续上报tempover),将单板重新插入9槽位后,观察业务持续正常,查询交叉温度较之前低10度。


根因

定位是温度过高引起单板重新上电后工作异常,上报一系列告警。


建议与总结

定位清洗风扇防尘网,控制好机房温度和湿度。

OptiXOSN设备正常运行对温度和湿度的要求为:(温度、湿度的测量点,是指在机架前后没有保护板时测量,距地板以上1.5m和距机架前方0.4m处测量的数值。)

长期运行温度:0℃~45℃

短期运行温度(短期运行是指连续工作不超过96小时和每年累计不超过15天。):-5℃~55℃

长期运行湿度5%~85%

短期运行湿度5%~95%

同时为提升产品应用可靠性,机房应配备机房专用精密空调,将温度和湿度控制在下面范围:

空调控制温度:15-30℃。

空调控制湿度:40%-75%。

注意:空调禁止安装在设备上方,空调出风口应避免直接吹向设备,空调安装时应尽量远离窗户,以避免将透窗的湿气通过空调吹向设