建议使用Chrome浏览器访问!
技术支持
互动社区
学习培训
深信服官网
合作伙伴

硬件产品

关注
主要包含硬件产品相关知识
故障案例库
典型场景排查思路

网口异常排查

更新时间:2023-01-05
  • 阅读权限:游客
  • 下载
  • 分享
  • 收藏
所属模块
适用版本 通用
网口异常排查
备注:
Intel X722电口不支持百兆,接百兆交换机不会Link,不支持强制设置速率
Intel X722光口2台服务器自连出现无法link,或者设备异常重启后无法link,先将光纤线接到光模块上,再将光模块插到光口中,光模块SN为S开头的2021年前的模块有此问题
9H、F*H服务器X722光口和其它扩展光口做聚合,出现网口突然掉的问题,一般是没有关闭lldp导致的,交换机能关闭,优先交换机关闭,交换机关闭不了,网口关闭,固件版本在4.0以上才支持关闭lldp
万兆光口不支持用千兆模块
光转电或电转光模块,长时间使用会不稳定,另外兼容性也存在问题,不建议使用
HCI产品线ethtool指令需要改成realethtool使用
一、网口不亮
可能原因:
网口物理损坏,网口物理丢失 ,网线异常,对端异常,网口系统不识别,网口down了,协商速率不匹配
排查思路:
1. 确认是一个网口异常 ,还是同张网卡所有网口异常
2. 更换网线、光纤线、光模块,交换对端网口,或者自环测试 ,排除其他环境因素
3. 确认网口状态,进系统查看网口识别情况
排查步骤:
1. 一个网口不亮,先将能亮的网线或者光纤线、光模块插到不亮的网口,如可亮,则是网线、光模块、光纤线或对端交换机网口问题,逐一排查。如不亮,检查下网口ping角是否有物理损坏,如损坏了,则返修,如正常,则进后台,ifconfig –a |grep HW,查看mac地址是否重复或丢失,有重复或者丢失找专家修改,如正常检查ifconfig,ifconfig –a ,lspci |grep Eth, 网口是否识别,都能正常识别,建议重启设备看是否能恢复,ifconfig 没有网口,ifconfig  -a 有网口, 尝试ifconfig ethX  down  再ifconfig  ethX up,ifconfig 和ifconfig  -a 没有lspci |grep Eth  如果有, 建议找研发排查一下驱动情况,如果lspci 也看不到该网口芯片,则网卡物理损坏返修
2. 整张网卡上的所有网口都不亮,先将网线、光模块、光纤线自环测试,如亮,则对端交换机问题,如不亮,针对光口,检查模块是否存在兼容性问题,有兼容性问题,后台会报此模块不支持,然后进后台ifconfig,ifconfig –a ,lspci |grep Eth,ifconfig 没有网口,ifconfig  -a 有网口, 尝试ifconfig ethX  down  再ifconfig  ethX up,ifconfig 和ifconfig  -a 没有lspci |grep Eth  如果有, 建议找研发排查一下驱动情况,如果lspci 也看不到该网口芯片,断电重新插拔下网卡,还不行,换个槽位试下,还不行则网卡故障,返修网卡

二、网口丢包
可能原因:
网口丢包,此类问题一般为软件问题,优先抓包确定数据包丢失在哪里
排查思路:
1. 优先给软件排查,软件排查后再硬件排查
2. 更换网线、光模块、光纤线,交换机端网口,排除其他环境因素
排查步骤:
1. 只有一个口丢包,ethtool -S ethX |grep drop(HCI产品线用realethtool),尝试更换网线、光模块、光纤线、交换机网口观察是否还会丢包,没有继续丢包则是网线、光模块、光纤线、交换机网口导致的,继续丢包,检查其他网口和同交换机其他主机是否存在丢包的情况,几个主机的某个口都丢包,需排查交换机端配置
2. 同一张网卡多个口丢包,排除交换机问题后,用笔记本直连网口长ping包看是否丢包,确认丢包后更换网卡

三、网口错误包
常见的网卡error包错误类型:
rx_length_errorsrx_long_length_errors
rx_crc_errors
rx_missed_errors
rx_fifo_errors = Total number of rx_queue_*_drops
排查思路:
错误包类型是crc_errors:
此类问题一般是网络传输受到了干扰造成的,一般是网线接触问题,网线被干扰,网线劣质,网络风暴等。
如果此类error增长率是0或者很小,客户网络也没有影响, 这个error问题则可以忽略。
如果此类error增长率大,尝试更换网线,模块网口,光纤线等操作。
错误包类型是missed_errors:
此类问题一般是网络流量过大,网络峰值,性能问题、硬件流控造成
如果此类error增长率是0或者很小,客户网络也没有影响,这个error问题则可以忽略
如果此类error增长很大,先排查网络流量和性能问题,然后关闭硬件流控测试
错误包类型是long_length_errors,length_errors:
是数据包length跟实际收到的包长不匹配造成的,这个需要收集具体的报文来分析,一般是大包传输问题造成,需要找软件处理MTU的问题,未解决进入下一点
错误包类型是RX_fifo_error:
此类错误容错是网口缓存不够导致,处理方案可以增加缓存大小
查看缓存大小:ethtool –g eth*
临时修改网口缓存:ethtool -G eth0 rx 2048(实际值决定)临时修改,重启失效
然后再使用观察一段时间  看fifo值是否会持续增加。
rx_long_length_errors 和 rx_length_errors :
是数据包length跟实际收到的包长不匹配造成的,通常非物理性故障
rx_crc_errors :
包括硬件校验错误和数据包校验错误,硬件上和劣质电缆光纤、环境噪音(cross talk)、环境干扰、接地问题、接头的氧化,插拔磨损,连接接触相关都会造成硬件校验错误。网络震荡、广播风暴、网络环路都会造成数据包校验错误。但出现大量CRC通常就是物理性异常了。需要逐个排查确认。---排查网线,模块,网口,光纤线,对端设备网口等物理模块
rx_missed_errors :
是缓存满了造成的,这个和当时的带宽性能有关系,还和流控有关系,其他产品线有过案例,关闭硬件流控可以解决这个问题;Intel同时回复:如果这个错误包不是突发大量报没关系。
排查步骤:
1. 检查错误包或丢包在哪个网卡上,ifconfig -a
2. 检查网口错误包类型,ethtool –S eth*|grep err(HCI产品线用realethtool,查看对应的错误包名称及处理方法
3. ifconfig ethX,确认frame,Frame值较大(几万以上),设备重启不接网线判断是否会有frame值增长,重启恢复,观察使用,重启后依旧增长,设备返修
4. 确认 ethtool –d ethX,如果网口后面显示全部参数都是FFFFFFFF,说明网卡寄存器异常,重启尝试,重启无效返修

本页目录
  • 问题描述
  • 解决方案
  • 操作影响范围