• 您好!欢迎进入深圳市华讯佳科技有限公司官网!

    15088181811
您当前所处位置: 首页 > 新闻资讯 > 华为案例

MSTP+网元TEMP_OVER告警处理

发布人:华讯佳 更新时间:2023-12-25 点击数:

问题描述

某日,工程师在进行一台OSN3500网元平滑升级,更换SXCS为PSXCS,单板上线后发现新插入的9槽位N2PSXCS单板上报TEMP_OVER告警,10槽位N2PSXCS无此告警。


告警信息

TEMP_OVER


处理过程

1、现场工程师查看机房温度,温度为23度,空调运行正常;

2、拆卸防尘网进行清理,清理过后插回,告警仍未消失;

3、由于之前SXCS单板并无异常告警,怀疑是单板误告产生,令现场工程师插拔9槽位PSXCS单板,单板复位上线后,告警仍未消失;

4、用命令行“:cfg-get-bdtemp:bid”查询9/10槽位单板温度,9/10槽位温度分别为65.2/62.5,用“:cfg-get-fanspeed”查询风扇情况,为normal。

9槽位温度已经超过65度,所以上报此告警,并非误告,根据研发分析,9槽位温度通常情况应低于10槽位温度,现场9槽位温度反而比10槽位高,很可能该槽位交叉芯片使用的是fast高功耗型,所以温度高。此场景可以通过命令行适当调高告警门限和更改风扇速度为high解决,命令行如下:

设置告警门限

:cfg-set-bdtempth:9,700,0

:cfg-set-bdtempth:10,700,0

设置风速

:cfg-set-fanspeed:high

执行命令后,TEMP_OVER告警消失。

经研发确认,芯片是否fast没有命令可以查询,只能通过JTAG读出芯片ID,再转给IBM确认。简单的判别方法就是看单板上报温度,一般fast芯片单板温度明显会比其他板高10度甚至更多。


根因

1、怀疑机房温度过高;

2、防尘网阻塞;

3、单板误告;

4、单板芯片原因。


建议与总结

通常情况出现TEMP_OVER告警时,处理方式为查询机房温度是否正常,检查防尘网是否阻塞;当出现MSTP+产品芯片高功耗问题时,可以通过适当修改告警门限和调整风扇速度解决。

另外,8/11槽位插入单板也可以促进交叉板散热。