更新时间:2024-09-04
功能简介
训练场景需要配置高性能参数网络用于训练时各个节点之间的训练数据同步,单节点训练场景或推理场景不需要,两节点及以上训练场景需配置此网络,同时需要对应的交换机支持
推荐使用LLD一键配置,手段配置参数过于负载
操作步骤
思路:先确定在线的IB网卡,再添加标签
- 使用管理IP通过xshell工具登录后台(root/adminsangfornetwork 端口:22345)
- 用命令ibdev2netdev,查看有哪些ib网卡是在线的可以查询出ib设备名称对应关系。在ark-agent中ib网卡统一用ibx来命名。
说明:如以上命令查询不到,可尝试使用如下命令ip link show
之后再用ethtool ibx 命令查看IB网卡的具体配置:速率
- 查询网卡是否为IB模式,输入ibstat,查看link layer是否为Infiniband
说明:如是EThernet模式,需要在BISO进行切换,参考资料:https://www.h3c.com/cn/d_202212/1741377 _30005 0.htm
- 配置标签
agent-ctl patch-pnic-properties ib0 --tags Parameter
字段名 |
含义 |
description |
网口描述 |
enabled |
是否启用,当前不生效,预留字段 |
gateway |
网关地址 |
ip |
ip地址 |
members |
成员口名称,使用逗号隔开 |
mode |
聚合模式,-h可以看到有哪些模式 RoundRobin|ActiveBackup|LoadBalanceL2|LoadBalanceL3|LoadBalanceL4|LacpL2|LacpL3|LacpL4 |
mtu |
网口MTU |
netmask |
掩码地址 |
tags |
网口功能标签,使用逗号隔开,可以同时有多个标签 Management,Underlay,Storage,Parameter |