服务热线
189-2347-0832

中兴S385 您当前所处位置: 首页 > 新闻资讯 > 行业技术

关于SDH单板温度查询的问题

发布时间:2018-05-14

问题描述

中国北方某局点OSN1500多块单板上报TEMP_OVER告警,结合告警参数和设备工作环境的问题,断定该告警是单板温度过低而引起的,下面讨论一下NG-SDH设备的温度检测机理以及遇到的一些问题。

现网版本:5.36.18.50


告警信息

TEMP_OVER


处理过程

查看当前告警中TEMP_OVER告警参数如下:

2929679     12    TEMP_OVER     MJ   start  2011-12-01 04:52:16  None    0x01   0x00   0x01   0x02   0xff  

3000350     80    TEMP_OVER     MJ   start  2011-12-24 04:59:15  None    0x01   0x00   0x01   0x02   0xff      

结合当前OSN1500产品手册(V100R008C02)中,对于SDH类单板,由参数4表示单板工作温度越限的类型,对于交叉类单板,由参数1表示单板工作温度越限的类型,其中0x01表示单板工作温度越上限,0x02表示单板工作温度越下限。那么对于三合一板应该看参数1,工作温度上限越限,显然和实际情况相反,查询的当前单板的温度cfg-get-bdtemp:80,单板当前问题为-2°C。

                                    BOARD-TEMP                                  

                                   BID   TEMP-NOW                                

                                   80    -20                                     

  Total records :1                         

所以产品手册中工作温度越限类型看参数1是错误的,经过研发确认,对于交叉类TEMP_OVER告警参数只需要看参数4,参数1为固定值,OSN3500(V100R008)和OSN7500(V100R008)对于参数的解释也是有误的,其他版本比如R11的产品文档在告警参数解释上有变动,只需要关注参数1。

2、NG-SDH设备温度上报的机制,单板内部有温度芯片,可以实时检测单板的温度,其他单板和主控板是通过背板通信的方式,将实时温度上报给主机,主机结合当前网元的所有单板上报温度中的最大值,记录到温度性能事件里面,所以只有主控板才能查询到单板温度的性能事件(bdtempmax,bdtempmin,bdtempcur),其他单板查询出来的是激光器的温度,该温度比单板问题高。

3、同一单板的不同版本对于温度查询支持情况是不同的,例如SSN2PQ1 VER.C(含温度芯片)和SSN2PQ1S VER.C(不含温度芯片),前者属于早期的版本,后者是降成本的产物,所以前者支持温度查询和温度告警的上报,后者不支持该功能。具体情况可以通过cfg-get-bdtemp:bid,根据返回的结果来判断该单板是否含温度芯片。

4、温度告警是单板内温度芯片查询单板实时温度,和温度告警门限值进行比较,如果越限就上报TEMP_OVER告警。当然告警门限值可以通过命令行修改:cfg-set-bdtempth:Bid, temphighgate, templowgate;门限值是有范围限制的,比如上门限在60-80,一些数据单板(SSN1EAS1/SSN1EAS2/SSN1EMS4/SSN1EGS4)是80,其他单板是70,缺省值是65。一般不建议将温度门限设置超过70。


建议与总结

一般情况下TEMP_OVER是因为温度过高而上报的告警,但是也有温度过低上报该告警的情况,为了消除此告警,请尽量保证设备工作环境的温度处于正常条件(0~45度之间)。