1、查看时间内流量增长情况;
例如两网口为千兆口且做了聚合的情况下,某个时间点一个网口的瞬时流量超过800Mb,另一个无流量,则流量出现偏载存在异常;
若单独一个电口(1000M)则判断时间前后流量差在每秒的流量是否在1000M/s以内
1、通过前台查看流量是否存在流量激增,但前台最低只能看一个小时之内的,无法继续缩小时间间距
2、如果前端流量详情已经被削平,或者超过时间看不到,可以后台看下网口统计;通过LOG_ethtool_statistic.txt:(/sf/log/vn-blackbox/today/LOG_ethtool_statistic.txt)可以看网口的详细统计,这里可以前后两个值相减除以时间手动计算一个流量大小。
比如下图:30s内发送了 txbytes 558532199421 - 558528456724 = 3,742,697 b = 3.7Gb 的流量
3、非接管网卡还可以看LOG_ifconfig.txt(/sf/log/vn-blackbox/today/LOG_ifconfig.txt)和LOG_sar_dev.txt(/sf/log/vn-blackbox/today/LOG_sar_dev.txt)这两个统计。(接管的网卡同样适用查看)
如 sar 统计如下:eth4 和 eth5 聚合,但 eth4 没啥流量,但 eth5 已经达到 111064KB/s = 108 Mb/s,接近千兆网卡带宽(千兆网卡理论传输速度则为125MB/s),且流量出现了偏载。
4、如果流量不大,也没有偏载情况,内核口的话可以再看下中断核的情况。
可参考链接:点击跳转
比如下图看到中断核空闲 91%多,表示还没跑满。
1、如果当前转发核没开独占,建议开启独占,如果当前为 1核独占,流量比较大或者有突增,建议开启 4核独占;
(影响业务需要协调对应主机空闲时间操作)
【实体机】中选择对应主机进去之后设置
2、调整网卡队列缓存大小
①优先判断对应网口是否被接管,cli命令下使用show interface-take-over命令查看对应ethX网口是否被接管
(注:680之后版本需要进容器执行,容器进入命令:container_exec -n vn-a;其中“state”状态为take-over的表示对应网口被接管)
②当前调整方式适用于,网口是通用模式接管的网口(有p_ethX口,但非Mellanox网口)或者未被接管的物理网口(如存储口),还可以再调大网口的ring-buffer:
(影响业务需要协调对应主机空闲时间操作)
①网卡buffer修改
(该操作修改会有10ms左右的波动)
#先查看网口buffer最大值支持多少,以及当前为多少;
(以eth0为例,若存在通用模式接管的网口则去查看是否存在p_ethX网口,有则以下命令网口名称需要改成p_ethX)
realethtool -g eth0
#再调整,要注意 rx tx 是否最大支持的值是 4096,如果不是,要换成对应的值
realethtool -G eth0 rx 4096 tx 4096
②若对应网口是被接管的情况下,更改完之后需要重启主机的sdn服务
#670以及版本之前:
/sf/etc/init.d/sdn.sh restart
#680版本之后需要进VN容器下重启sdn服务
(重启操作会断网10-30s!!)
container_exec -n vn-a
/sf/vn/etc/init.d/sdn.sh restart
③如果当前告警网口是dpdk模式接管的网口【注意:当前操作无法调整dpdk接管模式,由于网卡缓存队列是代码中定义的,没法直接使用realethtool修改缓存队列大小】,需要参考以下调整
6.10.0以下版本咨询研发
6.10.0以上版本:
#进入vn-agent容器中
container_exec -n vn-a
#修改文件里面的两个字段
vi /sf/sdn/conf/sup_system_limimt.ini
#将IFACE_RX_DESC_NUM和IFACE_TX_DESC_NUM字段值从1024修改为4096,然后保存并退出
IFACE_RX_DESC_NUM=4096
IFACE_TX_DESC_NUM=4096
#编辑/sf/cfg/vn/dp_customer_cfg.ini文件(如果没有则创建一个;命令:touch /sf/cfg/vn/dp_customer_cfg.ini)
vi /sf/cfg/vn/dp_customer_cfg.ini
#在/sf/cfg/vn/dp_customer_cfg.ini中添加两行配置字段,然后wq退出保存,这样重启容器/主机之后启动进程会自动写入配置文件
IFACE_RX_DESC_NUM=4096
IFACE_TX_DESC_NUM=4096
#vn-agent容器中重启数据面服务进程(重启操作会断网10-30s!!)
/sf/vn/etc/init.d/sdn.sh restart
3、如果是聚合口,还有流量的偏载情况,建议把聚合模式调整成 4层负载,让流量均衡一些
4、 如果是中断核被抢占导致丢包,需要隔离下中断核,查看和调整方法见跳转链接
5、如果看到流量已经接近网卡带宽,那说明当前网卡已经不足以支撑客户环境这么大的业务流量,需要更换更大带宽的网卡