AICP算力平台

AICP面向用户提供一站式大模型开发和推理服务,覆盖大模型开发和部署的全流程,包括从数据接入、模型训练、模型管理、模型压缩、模型加密、模型推理的全流程。
点击可切换产品版本
知道了
不再提醒
1.0.0
AICP算力平台 文档 部署裸金属 配置网络 命令配置网络 配置参数面网络(X86-IB网络)
{{sendMatomoQuery("AICP算力平台","配置参数面网络(X86-IB网络)")}}

配置参数面网络(X86-IB网络)

更新时间:2024-11-02

功能简介

训练场景需要配置高性能参数网络用于训练时各个节点之间的训练数据同步,单节点训练场景或推理场景不需要,两节点及以上训练场景需配置此网络,同时需要对应的交换机支持

推荐使用LLD一键配置,手段配置参数过于负载

操作步骤

思路:先确定在线的IB网卡,再添加标签

  1. 使用管理IP通过xshell工具登录后台(root/adminsangfornetwork  端口:22345
  2. 用命令ibdev2netdev,查看有哪些ib网卡是在线的可以查询出ib设备名称对应关系。在ark-agentib网卡统一用ibx来命名。

说明:如以上命令查询不到,可尝试使用如下命令ip link show 

之后再用ethtool ibx 命令查看IB网卡的具体配置:速率

 

  1. 查询网卡是否为IB模式,输入ibstat,查看link layer是否为Infiniband

说明:如是EThernet模式,需要在BISO进行切换,参考资料:https://www.h3c.com/cn/d_202212/1741377 _30005 0.htm

企业微信截图_17234522015243

  1. 配置标签

agent-ctl patch-pnic-properties ib0 --tags Parameter

字段名

含义

description

网口描述

enabled

是否启用,当前不生效,预留字段

gateway

网关地址

ip

ip地址

members

成员口名称,使用逗号隔开

mode

聚合模式,-h可以看到有哪些模式

RoundRobin|ActiveBackup|LoadBalanceL2|LoadBalanceL3|LoadBalanceL4|LacpL2|LacpL3|LacpL4

mtu

网口MTU

netmask

掩码地址

tags

网口功能标签,使用逗号隔开,可以同时有多个标签

Management,Underlay,Storage,Parameter