服务热线
189-2347-0832

中兴S385 您当前所处位置: 首页 > 新闻资讯 > 行业技术

OSN3500设备数据库备份关闭导致升级后业务中断

发布时间:2019-09-04

问题描述 

OptiX OSN3500设备日常维护中需要备份网元配置数据,确保网元主控板丢失数据或设备掉电后自动恢复运行。备份网元配置数据到主控板,就是把网元配置数据备份到主控板的FLASH中。网元掉电后重启,主控板会自动从FLASH中读取配置,并下发给单板。OptiX OSN3500设备升级后,两个线路板SSN4SLD64 STM-64光接口板状态异常业务中断。问题出现后尝试使用升级前备份的网元数据库恢复,但是恢复失败,业务中断。 


处理过程 

1、升级后发现slot8和slot11的SLD64单板离线,相关业务中断; 

2、客户维护人员发现slot8和slot11的N4SLD64物理单板从升级之前的N1SLD64逻辑板变成了SSN2SL64逻辑板,修改逻辑单板从N2SL64到N1SLD64; 

3、修改逻辑板类型后,单板上线但是业务不恢复; 

4、问题知会到本地中方,以及TAC,华为中方开始介入处理; 

5、经过和机关GTAC沟通,决定执行回滚; 

6、移走升级完的两个R10版本GSCC,插入R8版本的SSN4GSCC,开始使用升级之前备份的数据库恢复; 

7、恢复超时,恢复失败,业务仍然中断(DC密码错误,导致超时); 

8、放弃从数据库恢复,GTAC根据升级前备份的数据库制作交叉配置脚本,本地命令行下发; 

9、下发成功,但是业务仍然全部中断,发现升级之前备份的数据库有问题,无法使用; 

10、开始寻找最近备份的有效数据,使用11月份巡检收集到的业务配置,制作交叉配置脚本; 

11、执行脚本,业务恢复。 


根因 

主控单板GSCC内部DRDB和FDB之间的同步开关被异常关闭,导致FDB中存的数据是历史配置的,和当前运行的业务不符。由此导致两个问题: 

1、升级之后主控复位,复位之后主控重新下发数据,下发的是FDB中的旧数据,和当前逻辑板位配置以及业务配置都是不符的,因此升级上报成功但是业务中断; 

2、网元数据备份的时候是从FDB备份的,因此升级前使用DC备份的数据也是有问题的,无法基于这个数据库进行恢复,导致回滚失败,造成业务中断。 

数据库备份功能默认enable,故障网元之前巡检发现该网元是disable,未修复。 


#9-48:szhw [48-***_OSN-4                                                 ][][2014-12-12 14:31:50+06:00]> 

:dbms-get-autobackup 

DBMS-AUTO-BACKUP  : disable 


#9-48:szhw [48-***_OSN-4                                                 ][][2014-12-12 14:31:52+06:00]> 

:dbms-get-cyclebackup 

CYCLE-BACKUP-SWITCH  : disable 


#9-48:szhw [48-***_OSN-4                                                 ][][2014-12-12 14:31:53+06:00]> 

:mml-get-evtflag 

CMD EVT FLAG: disable 


解决方案 

找到升级之前最近的有效的网元数据库备份文件,或者升级前的网管备份脚本,据此制作业务恢复脚本,重新删除和配置全网交叉。 


建议与总结 

1、定时巡检,对于巡检中发现的异常及时跟踪解决,即使客户不主动要求解决,也要主动推动解决; 

2、升级动作严格参考升级指导书,尤其是对于不理解的步骤,也要严格执行,因为很可能就是对某个潜在隐患的关键过滤措施; 

3、加强对产品知识的理解,分清楚网元数据备份(从FDB备份)、网管数据上载(从DRDB上载)、网管脚本备份(DRDB动态有效数据)、网管上同步入口(备份网元数据到SCC)这几个概念的含义,故障时及时找到有效数据。 

4、升级严格遵守流程做各种备份,以备万一之需。