AICP算力平台

AICP面向用户提供一站式大模型开发和推理服务,覆盖大模型开发和部署的全流程,包括从数据接入、模型训练、模型管理、模型压缩、模型加密、模型推理的全流程。
点击可切换产品版本
知道了
不再提醒
1.0.0
AICP算力平台 文档 部署裸金属 配置网络 命令配置网络 配置参数面网络(天数-Roce网络)
{{sendMatomoQuery("AICP算力平台","配置参数面网络(天数-Roce网络)")}}

配置参数面网络(天数-Roce网络)

更新时间:2024-09-04

功能简介

训练场景需要配置高性能参数网络用于训练时各个节点之间的训练数据同步,单节点训练场景或推理场景不需要,两节点及以上训练场景需配置此网络,同时需要对应的交换机支持

推荐使用LLD一键配置,手段配置参数过于负载

操作步骤

思路:先确定Roce网卡,确定网卡模式,再添加标签和IP

  1. 使用管理IP通过xshell工具登录后台(root/adminsangfornetwork  端口:22345
  2. 使用命令查找Roce高性能网卡,记录下pci号,天数天垓的高性能网卡是cx6.

lspci | grep net

  1. ll /sys/class/net/ | grep pci_num找到网口名称

  1. 查询网卡是否为IB模式,输入ibstat,查看link layer是否为EThernet

说明:如是EThernet模式,需要在BISO进行切换,参考资料:https://www.h3c.com/cn/d_202212/1741377 _30005 0.htm

企业微信截图_17234522015243

  1. 配置标签和参数面网段

agent-ctl patch-pnic-properties eth8 --tags Parameter --containerNetCIDR 10.1.0.0/24

字段名

含义

description

网口描述

enabled

是否启用,当前不生效,预留字段

gateway

网关地址

ip

ip地址

members

成员口名称,使用逗号隔开

mode

聚合模式,-h可以看到有哪些模式

RoundRobin|ActiveBackup|LoadBalanceL2|LoadBalanceL3|LoadBalanceL4|LacpL2|LacpL3|LacpL4

mtu

网口MTU

netmask

掩码地址

tags

网口功能标签,使用逗号隔开,可以同时有多个标签

Management,Underlay,Storage,Parameter