AICP算力平台

AICP面向用户提供一站式大模型开发和推理服务,覆盖大模型开发和部署的全流程,包括从数据接入、模型训练、模型管理、模型压缩、模型加密、模型推理的全流程。
点击可切换产品版本
知道了
不再提醒
1.0.0
{{sendMatomoQuery("AICP算力平台","总体架构")}}

总体架构

更新时间:2024-09-11

从技术架构角度,AICP整个系统主要包括裸金属服务器、分布式存储、用户K8S集群、SCPSKEAICP软件平台。

descript

 

 AICP技术架构

各个组成部分描述如下:

  1. 裸金属服务器

用户K8S集群运行的基础硬件环境,提供计算、存储、网络等各类硬件资源,支持多CPU架构(x86armc86)、异构GPU纳管(NvidiaAscend NPUIluvatar)、RDMA组网(IBRoCE);

适配GPU运行AI业务的软件环境,预装操作系统、显卡驱动及运行时、基础依赖库、通信库,划分参数面高性能网络平面。

  1. 分布式存储EDS

深信服企业级分布式存储(EDS),采用全对称的分布式架构,可提供块存储、大数据存储、对象存储、文件存储等多种存储服务。

  1. SCP

SCP基础能力管理服务器资源池,纳管裸金属服务器,管理服务器上的各类硬件资源如CPUGPUSSD等,为物理服务器组网、配置IP,管理ISO镜像;

SCP服务目录能力支持在SCP架构下添加各种类型的XaaS化应用,SKEAICP作为XaaS应用接入SCP体系,使用SCP提供的各项资源管理能力;

SCP为各类XaaS化应用提供通用的业务能力,如统一的用户体系和认证体系、监控告警、操作审计、序列号等。

  1. SKE

SKE纳管用户K8S集群,为用户K8S集群提供可扩展的能力,如新扩展的eds-csi接口与eds存储系统对接、device plugin插件支持GPU设备发现、volcano调度器支持AI任务的gang scheduling策略、cni支持容器多网卡配置及构建RDMA网络、部署网关服务支持推理服务发布等;

SKEAICP提供基础运行环境,AICP部署在SKE所在虚拟机及K8S集群上,与SKE共享底层基础设施环境;

SKE提供公用的底层能力,如镜像仓库、采集服务、监控告警服务、日志中心等,AICP通过SKE下发任务到用户K8S集群,AICP复用SKE提供的镜像仓库管理业务镜像,复用数据采集服务进行数据面和管理面之间的信息同步,复用监控告警服务感知数据面任务运行时的监控指标,复用日志中心收集数据面任务运行产生的日志。

  1. AICP

AICP分为管控面和数据面两个模块:

管控面模块主要管理平台类的各项业务资源,主要包括数据集、模型、镜像、算力池、各类任务(模型训练、模型推理、模型压缩、模型加密)等资源的管理,如将数据集、模型等保存在存储系统,将任务下发到用户K8S集群;

数据面模块运行AICP管理面提交过来的大模型训练、推理、压缩、加密任务,管理任务的全生命周期,并将任务的状态、日志、监控指标等上报给AICP管理面,同步缓存的Checkpoint到存储系统。