问题描述(故障现象)
某本地环2上的162个基站业务中断4分钟。通过查询网管历史告警和操作日志,发现14点45分时有网管管理用户对S385网元的8和9号槽位时钟板进行了复位,间隔时间为九秒钟,当单板复位完成后所有业务恢复正常。
原因分析
结合客户端日志与网管操作日志分析:
现场一admin用户,所在IP:192.7.1.4,在2012-05-1714:46:19网管操作下发了一次复位8#SC板的操作。紧接着在9s后的14:46:28又对9号槽位的sc板进行了单板复位操作。此时8#槽位的交叉板还没有完全运行起来,9#槽位的交叉板又复位,导致业务中断。以下是复位的记录:
2012-05-1714:46:19,921INFO[com.zte.ican.pal.config.boardcommonconfigmaintenance.view.TAbsResetBoardPanel]LLHobj:SC[0-1-8-2]
2012-05-1714:46:28,296INFO[com.zte.ican.pal.config.boardcommonconfigmaintenance.view.TAbsResetBoardPanel]LLHobj:SC[0-1-9-2]
ZXMP S385设备的时钟板复位时会将CS板一同复位。现场在2块CS板复位的情况下,业务肯定会中断。
在2012-05-17的操作日志里我们还发现在2012-05-1714:27:30到2012-05-1714:32:18之间进行了13个325网元的主备SC板复位,均为网管操作下发。
解决方案
建议复位设备的交叉板时,先把业务倒换到保护单板后再复位,等待3分钟单板复位完成后再操作另外一块单板,否则就会引起该网元上的业务中断。