问题描述(故障现象)
某局突然出现大量LTE基站丢包情况,经过分析发现丢包站点集中在一对桥接点上。
组网环境
典型LTE组网环境,业务采用OAM-MAPPING模型。
原因分析
1、核心网问题;
2、PTN网络某处链路有误码;
3、路由问题;
4、桥接点硬件问题。
解决方案
1.无线网管观察故障网段,并没有发现任何异常告警,询问网优中心得知无线侧也并没有发现任何异常告警,初步判断故障点不在核心网设备上。
2.在出现故障的主用LTE桥接ZXCTN 6500上ping丢包的基站IP发现没有丢包,然后再从该桥接6500带故障网段的网关为源地址ping核心网EPC地址发现会丢一半的包,确定问题出在这里。经此分析应该是EPC下行流量采用符合分担方式分别下行到主、备用桥接点,而丢掉的报文应该是从备用桥接点丢的。
3.通过检查丢包基站业务在PTN上的配置发现所有丢包基站均没有配置伪线双规保护,而不丢包的基站业务都是配置了伪线双规保护的。
4.查询两台桥接中兴6500设备操作日志发现当天备用桥接设备内新增了很多L3VPN的网关,而丢包网段的网关就在这些网关之中,通过分析应该是有一半流量下行到备用桥接中兴ZXCTN 6500设备上后由于未配置双归保护导致流量无法通过二三层桥接转发到L2VPN而被丢弃,进而引起发基站丢包。
5.之前LTE下行流量到达备用桥接点后通过静态路由绕回到主用桥接点后继续下行,所以业务不受影响,而当备用桥接点L3VPN中增加了基站网关子接口后,由于直连路由优先级高于静态路由,所以流量不会再被转发到主用桥接点,而当备用桥接点没有到达基站的伪线时流量就会被丢弃。
6.在备用桥接点把之前添加的基站网关子接口从L3VPN中删除后业务全部恢复。