建议使用Chrome浏览器访问!
技术支持
互动社区
学习培训
深信服官网
合作伙伴

超融合HCI

关注
深信服超融合SANGFOR HCI是面向下一代数据中心的软件定义基础架构,通过虚拟化技术融合计算、存储、网络和安全等资源,并提供运维管理、容灾备份、智能监控等高级特性,帮助用户构建极简、稳定、高性能的云化数据中心基石。
故障案例库
典型场景排查思路

【HCI-VN】vAF 发出非法GSO包导致物理网卡发包队列卡死

更新时间:2024-09-08
  • 阅读权限:游客
  • 下载
  • 分享
  • 收藏
所属模块 网络问题 | 虚拟网络
适用版本 通用

虚拟机不通网关,排查发现是业务聚合口其中一个口不发包(tx packets不涨,tx drop一直在涨)

或者有这样的现象:聚合口两个成员口,down 掉其中一个口通,down 掉另一个不通。

PS:本文适用网口是 DPDK 模式接管的场景

可能会出现网卡发送方向丢包率过高

1. 首先抓包确认在业务口能抓到请求包,但没收到响应包,那就有三种情况:

  • 包在网卡丢了,没发出去
  • 包在外部丢了
  • 包回到了网卡,还是在网卡丢了,没收上来

 

2. 确认网口有没有丢包统计

# ethX 换成对应网卡
echo -e "show interface ethX"|cli|grep -Ei "drop|err"

 

可以发现,tx packets 没有增长,但 tx drop 一直在涨,说明可能网卡卡死了

 

3. 确认网卡是否卡死

网卡卡死的问题,以前出现过两起:

本文属于第一起,经确认这个客户当前6.8.0R2已经解决这个问题,属于新问题。

dump 网卡队列发现有非法 GSO 包发出,查看 dp日志(/sf/log/today/dataplane.log)发现 dp 确实收到了非法 GSO 包:

 

4. 可以看到该包是从 6273921390672 这台虚拟机的 eth0 网卡发出的,前端看到该虚拟机一台 vAF,判定是 vAF 发出非法 GSO 的异常包导致网卡队列卡死。

vAF 发出非法 GSO 的异常包,dp 没有拦住这些异常包,进入到网卡,导致网卡卡死不发包。

临时解决方案:

1. 关闭 vAF,后台修改 vAF 的配置文件,将 host_tso=on 字段修改为host_tso=off,再启动vAF

修改方法:

# 到AF所在主机找到 /cfs/ 下的 conf 文件:
find /cfs/ -name <vmid>.conf
# 然后把里面的host_tso=on,都改成 host_tso=off

 

2. 当前业务口还是卡死的,需要down/up一下恢复,如无法恢复需要重启sdn,(这个会影响这台主机上的所有业务,时间大概在10-30s)

down/up方法:

# ethX 换成对应的口
echo -e "con t\ninterface ethX\nshutdown"|cli
echo -e "con t\ninterface ethX\nno shutdown"|cli

 

 永久解决方案:

1. AF 出包解决发出非法 GSO 包的问题

2. HCI 出包解决非法 GSO 包没有拦住的问题,HCI6.11.0解决,后续出各 LTS 版本的补丁(20240908更新)

 

临时解决方案影响当前主机的网络,还有重启 vAF
网卡不发包的排查,目前有三个这样的案例

 

本页目录
  • 问题描述
  • 告警信息
  • 有效排查步骤
  • 根因
  • 解决方案
  • 操作影响范围
  • 是否是临时解决方案
  • 建议与总结
您当前处于未登录状态,资料搜索或查找可能会不全面,请登录后以查找更全面的内容注册登录