问题描述
客户日常维护时发现,在用T2000网管查询OSN3500网元多块单板的性能事件时,大部分时间都不能正常返回,只是偶尔可以正确查询到,查询失败时上报错误码126979。但单独查询其中任意一块单板的性能时结果都正常,命令行查询也正常。T2000版本为V2R5C01B01C,设备版本为5.21.15.13。
告警信息
错误码:126979
处理过程
1、分析网管日志确认查询性能时设备有丢包。
2、网管下发查询所有单板当前性能,在网管会下发多条操作命令给网元性能主机模块,性能主机模块再分发给多个单板性能,等待多块单板的返回。
3、由于每个单板性能数据量不一样多,单板性能返回数据给主机性能数据存在时间先后顺序的问题,性能主机上接收多块单板数据异步处理时,对其中当前性能数据为空单板的特殊情况处理不完整,导致当前性能数据为空单板的命令丢失,没有反馈网管,结果出现网管等待命令超时。
4、后续平台版本通过如下方式规避处理:在多命令多单板性能数据返回性能主机模块时,对数据缓存发送和单板查询空的情况进行处理,解决单板查询为空的命令结束影响到其它单板多数据命令返回。使性能主机模块能正确上报各块单板命令到接口模块,从而使网管能正确显示当前性能数据。
根因
由于查询性能时是概率出现超时现象,很有可能是网管下发命令到网元时,网元侧丢包,导致网管误认为网元没有返回,上报超时。
建议与总结
该问题在OSP07C03T09和OSP07C02T17及后续版本已经解决,对应产品版本可以参考版本配套表。