问题描述
ASON的Trail业务中断,由于该业务的计划预置路径没有打通,因此该Trail中断。检查Trail发现该链路中的H站点OSN8800设备上有四块NS3单板不断复位,而且该四块NS3单板及网元上的部分板卡出现频繁脱管现象。
告警信息
1、脱管单板出现BD_STATUS告警。
2、HARD_BAD
3、TEMP_OVER
处理过程
1、到现场后发现该站点的空调掉电,由于该站点在沙漠地带,室外温度达到70度,加上机器不断持续发热导致该站点温度过高。部分设备的前面板及走线槽都出现了融化现象。多块单板告警等不断闪烁。
2、空调故障排除后从新上电,发现该站点仍然能在网管上PING通ECC,但是多块单板包括NS3单板都出现脱管现象。
3、三天后该站点网元脱管。
4、研发和一线技服定位后确认该站点的AUX板卡、NS3板卡等多块板卡内的部分模块由于温度过高而烧毁,通信及各项性能均不能实现,整套设备需要从新发货。
5、从新发货后该站点上的ASON业务恢复正常。
根因
1、出现HARD_BAD是因为该站电之前多次掉电,目前网元可以PING通,排除掉电问题。
2、NS3单板以及多块单板出现BD_STATUS告警,分析原因如下:AUX单板故障;已经配置逻辑单板,物理单板未插入对应槽位;单板插头与背板插座间松动;单板故障;背板故障。
3、NS3等单板出现TEMP_OVER告警,估计该站点出现空调故障导致单板温度过高现象。
建议与总结
由于沙漠站点非常偏僻而且温度非常高,加上都是无人值守的站点,一旦空调出现故障设备都非常容易烧毁,因此建议:
1、考虑到沙特等高温场境,为板卡提供耐高温保护。
2、为板卡提供远程掉电人工控制。