• 您好!欢迎进入深圳市华讯佳科技有限公司官网!

  • 15088181811
您当前所处位置: 首页 > 新闻资讯 > 中兴案例

ZXCTN 6500设备升级后线卡CPU使用率冲高

发布人:华讯佳 发布时间:2022-08-09 浏览数:

问题描述(故障现象)

东区PTN-13和东区PTN-14这两台中兴6500设备的54和55槽位共4块单板报CPU过载告警,通过show process 命令查询CPU利用率都在83-96之间;而平时正常CPU负荷为30-40%;这四块单板的端口对接了四个SGW,分别为SGW65/66/69/70。


组网环境

华为LTE基站------------本地网PTN网络-------------中兴PTN省干------------爱立信SGW


原因分析

设备升级后才出现CPU使用率偏高,可能为设备软件BUG。


解决方案

1、对其中一块线卡进行复位,复位后CPU使用率未降低。

2、在诊断模式下进行分析,CPU使用率偏高为CPU受到异常报文冲击导致。

3、对这两台设备进行收方向抓包,发现收到了TTL=1的报文,并且这些报文的源IP为基站地址,目的IP为SGW的地址。正常情况下,中兴省干6500设备收到的报文,源IP为SGW的地址,目的IP为华为基站的IP地址。

4、进一步分析基站发出来的报文的目的地址,经过分析发现这些地址已经为SGW废弃不用的地址。

5、和华为、爱立信进一步沟通确认,华为基站默认有记录SGW业务地址并进行心跳检测的功能,而核心网修改不再使用的SGW地址,华为基站需要手工删除这些地址,否则还会继续发ping测报文进行心跳检测。本次问题主要是华为基站记录了原来SGW的业务地址发送了心跳检测报文,报文通过省干PTN传给SGW,而SGW有默认路由,基站发上来的报文的目的业务地址是原来核心网的地址,但最近核心网升级后,这些SGW地址已经不再被核心网使用了(如:100.96.126.2/3/4/5等),所以核心网(SGW)收到基站发上来的报文,没做任何处理就又用默认路由发给省干。而省干原来配置有指向核心网的路由。导致报文又被再次传给核心网,相当于路由成环。实际抓包有大量TTL=1的报文就证明这一点。这些路由成环的大量报文导致单板CPU冲高。

6、中兴省干ZXCTN 6500设备升级后出现CPU使用率偏高,升级前为2.0版本,2.0版本对TTL=1的报文,默认为丢弃(CPU不处理,所以不会冲高)升级到2.1版本后,根据RFC792标准,2.1版本对TTL=1的报文,需要回送ICMP报文,这样会消耗大量CPU。

7、删除基站的心跳检测功能中记录的SGW业务地址(核心网升级后已经不使用的地址),基站不再向核心网发送目的地址为“不使用的SGW地址”的心跳检测报文后解决。