问题描述
某日,工程师在进行一台OSN3500网元平滑升级,更换SXCS为PSXCS,单板上线后发现新插入的9槽位N2PSXCS单板上报TEMP_OVER告警,10槽位N2PSXCS无此告警。
告警信息
TEMP_OVER
处理过程
1、现场工程师查看机房温度,温度为23度,空调运行正常;
2、拆卸防尘网进行清理,清理过后插回,告警仍未消失;
3、由于之前SXCS单板并无异常告警,怀疑是单板误告产生,令现场工程师插拔9槽位PSXCS单板,单板复位上线后,告警仍未消失;
4、用命令行“:cfg-get-bdtemp:bid”查询9/10槽位单板温度,9/10槽位温度分别为65.2/62.5,用“:cfg-get-fanspeed”查询风扇情况,为normal。
9槽位温度已经超过65度,所以上报此告警,并非误告,根据研发分析,9槽位温度通常情况应低于10槽位温度,现场9槽位温度反而比10槽位高,很可能该槽位交叉芯片使用的是fast高功耗型,所以温度高。此场景可以通过命令行适当调高告警门限和更改风扇速度为high解决,命令行如下:
设置告警门限
:cfg-set-bdtempth:9,700,0
:cfg-set-bdtempth:10,700,0
设置风速
:cfg-set-fanspeed:high
执行命令后,TEMP_OVER告警消失。
经研发确认,芯片是否fast没有命令可以查询,只能通过JTAG读出芯片ID,再转给IBM确认。简单的判别方法就是看单板上报温度,一般fast芯片单板温度明显会比其他板高10度甚至更多。
根因
1、怀疑机房温度过高;
2、防尘网阻塞;
3、单板误告;
4、单板芯片原因。
建议与总结
通常情况出现TEMP_OVER告警时,处理方式为查询机房温度是否正常,检查防尘网是否阻塞;当出现MSTP+产品芯片高功耗问题时,可以通过适当修改告警门限和调整风扇速度解决。
另外,8/11槽位插入单板也可以促进交叉板散热。