更新时间:2024-09-04
功能简介
训练场景需要配置高性能参数网络用于训练时各个节点之间的训练数据同步,单节点训练场景或推理场景不需要,两节点及以上训练场景需配置此网络,同时需要对应的交换机支持
推荐使用LLD一键配置,手段配置参数过于负载
操作步骤
思路:先确定Roce网卡,确定网卡模式,再添加标签和IP
- 使用管理IP通过xshell工具登录后台(root/adminsangfornetwork 端口:22345)
- 使用命令查找Roce高性能网卡,记录下pci号,天数天垓的高性能网卡是cx6.
lspci | grep net
- ll /sys/class/net/ | grep pci_num找到网口名称
- 查询网卡是否为IB模式,输入ibstat,查看link layer是否为EThernet
说明:如是EThernet模式,需要在BISO进行切换,参考资料:https://www.h3c.com/cn/d_202212/1741377 _30005 0.htm
- 配置标签和参数面网段
agent-ctl patch-pnic-properties eth8 --tags Parameter --containerNetCIDR 10.1.0.0/24
字段名 |
含义 |
description |
网口描述 |
enabled |
是否启用,当前不生效,预留字段 |
gateway |
网关地址 |
ip |
ip地址 |
members |
成员口名称,使用逗号隔开 |
mode |
聚合模式,-h可以看到有哪些模式 RoundRobin|ActiveBackup|LoadBalanceL2|LoadBalanceL3|LoadBalanceL4|LacpL2|LacpL3|LacpL4 |
mtu |
网口MTU |
netmask |
掩码地址 |
tags |
网口功能标签,使用逗号隔开,可以同时有多个标签 Management,Underlay,Storage,Parameter |