建议使用Chrome浏览器访问!
技术支持
互动社区
学习培训
深信服官网
合作伙伴

超融合HCI

关注
深信服超融合SANGFOR HCI是面向下一代数据中心的软件定义基础架构,通过虚拟化技术融合计算、存储、网络和安全等资源,并提供运维管理、容灾备份、智能监控等高级特性,帮助用户构建极简、稳定、高性能的云化数据中心基石。
故障案例库
典型场景排查思路

网口流量过大或突增导致网络异常

更新时间:2025-04-03
  • 阅读权限:游客
  • 下载
  • 分享
  • 收藏
所属模块 主机网络
适用版本 通用

检查网口流量增长是否正常

1、查看时间内流量增长情况;

例如两网口为千兆口且做了聚合的情况下,某个时间点一个网口的瞬时流量超过800Mb,另一个无流量,则流量出现偏载存在异常;

若单独一个电口(1000M)则判断时间前后流量差在每秒的流量是否在1000M/s以内

1、通过前台查看流量是否存在流量激增,但前台最低只能看一个小时之内的,无法继续缩小时间间距

2、如果前端流量详情已经被削平,或者超过时间看不到,可以后台看下网口统计;通过LOG_ethtool_statistic.txt:(/sf/log/vn-blackbox/today/LOG_ethtool_statistic.txt)可以看网口的详细统计,这里可以前后两个值相减除以时间手动计算一个流量大小。

比如下图:30s内发送了 txbytes 558532199421 - 558528456724  = 3,742,697 b = 3.7Gb 的流量

3、非接管网卡还可以看LOG_ifconfig.txt(/sf/log/vn-blackbox/today/LOG_ifconfig.txt)和LOG_sar_dev.txt(/sf/log/vn-blackbox/today/LOG_sar_dev.txt)这两个统计。(接管的网卡同样适用查看)

如 sar 统计如下:eth4 和 eth5 聚合,但 eth4 没啥流量,但 eth5 已经达到 111064KB/s = 108 Mb/s,接近千兆网卡带宽(千兆网卡理论传输速度则为125MB/s),且流量出现了偏载。

4、如果流量不大,也没有偏载情况,内核口的话可以再看下中断核的情况。

可参考链接:点击跳转

比如下图看到中断核空闲 91%多,表示还没跑满。

1、如果当前转发核没开独占,建议开启独占,如果当前为 1核独占,流量比较大或者有突增,建议开启 4核独占;

(影响业务需要协调对应主机空闲时间操作)

【实体机】中选择对应主机进去之后设置

2、调整网卡队列缓存大小

①优先判断对应网口是否被接管,cli命令下使用show  interface-take-over命令查看对应ethX网口是否被接管 

(注:680之后版本需要进容器执行,容器进入命令:container_exec -n vn-a;其中“state”状态为take-over的表示对应网口被接管)

②当前调整方式适用于,网口是通用模式接管的网口(有p_ethX口,但非Mellanox网口)或者未被接管的物理网口(如存储口),还可以再调大网口的ring-buffer: 

(影响业务需要协调对应主机空闲时间操作) 

①网卡buffer修改
(该操作修改会有10ms左右的波动)
#先查看网口buffer最大值支持多少,以及当前为多少;
(以eth0为例,若存在通用模式接管的网口则去查看是否存在p_ethX网口,有则以下命令网口名称需要改成p_ethX)
realethtool -g eth0 
#再调整,要注意 rx tx 是否最大支持的值是 4096,如果不是,要换成对应的值
realethtool -G eth0 rx 4096 tx 4096
②若对应网口是被接管的情况下,更改完之后需要重启主机的sdn服务
#670以及版本之前:
/sf/etc/init.d/sdn.sh restart
#680版本之后需要进VN容器下重启sdn服务
(重启操作会断网10-30s!!)
container_exec -n vn-a
/sf/vn/etc/init.d/sdn.sh restart

③如果当前告警网口是dpdk模式接管的网口【注意:当前操作无法调整dpdk接管模式,由于网卡缓存队列是代码中定义的,没法直接使用realethtool修改缓存队列大小】,需要参考以下调整 

6.10.0以下版本咨询研发

6.10.0以上版本:
#进入vn-agent容器中
container_exec -n vn-a
#修改文件里面的两个字段
vi /sf/sdn/conf/sup_system_limimt.ini
#将IFACE_RX_DESC_NUM和IFACE_TX_DESC_NUM字段值从1024修改为4096,然后保存并退出
IFACE_RX_DESC_NUM=4096
IFACE_TX_DESC_NUM=4096
#编辑/sf/cfg/vn/dp_customer_cfg.ini文件(如果没有则创建一个;命令:touch /sf/cfg/vn/dp_customer_cfg.ini)
vi  /sf/cfg/vn/dp_customer_cfg.ini
#在/sf/cfg/vn/dp_customer_cfg.ini中添加两行配置字段,然后wq退出保存,这样重启容器/主机之后启动进程会自动写入配置文件
IFACE_RX_DESC_NUM=4096
IFACE_TX_DESC_NUM=4096
#vn-agent容器中重启数据面服务进程(重启操作会断网10-30s!!)
 /sf/vn/etc/init.d/sdn.sh restart

3、如果是聚合口,还有流量的偏载情况,建议把聚合模式调整成 4层负载,让流量均衡一些

4、 如果是中断核被抢占导致丢包,需要隔离下中断核,查看和调整方法见跳转链接

5、如果看到流量已经接近网卡带宽,那说明当前网卡已经不足以支撑客户环境这么大的业务流量,需要更换更大带宽的网卡

 

 

 

本页目录
  • 问题描述
  • 判断标准
  • 判断方式
  • 解决方案