更新时间:2024-09-11
从技术架构角度,AICP整个系统主要包括裸金属服务器、分布式存储、用户K8S集群、SCP、SKE和AICP软件平台。
AICP技术架构
各个组成部分描述如下:
- 裸金属服务器
用户K8S集群运行的基础硬件环境,提供计算、存储、网络等各类硬件资源,支持多CPU架构(x86、arm、c86)、异构GPU纳管(Nvidia、Ascend NPU、Iluvatar)、RDMA组网(IB、RoCE);
适配GPU运行AI业务的软件环境,预装操作系统、显卡驱动及运行时、基础依赖库、通信库,划分参数面高性能网络平面。
- 分布式存储EDS
深信服企业级分布式存储(EDS),采用全对称的分布式架构,可提供块存储、大数据存储、对象存储、文件存储等多种存储服务。
- SCP
SCP基础能力管理服务器资源池,纳管裸金属服务器,管理服务器上的各类硬件资源如CPU、GPU、SSD等,为物理服务器组网、配置IP,管理ISO镜像;
SCP服务目录能力支持在SCP架构下添加各种类型的XaaS化应用,SKE、AICP作为XaaS应用接入SCP体系,使用SCP提供的各项资源管理能力;
SCP为各类XaaS化应用提供通用的业务能力,如统一的用户体系和认证体系、监控告警、操作审计、序列号等。
- SKE
SKE纳管用户K8S集群,为用户K8S集群提供可扩展的能力,如新扩展的eds-csi接口与eds存储系统对接、device plugin插件支持GPU设备发现、volcano调度器支持AI任务的gang scheduling策略、cni支持容器多网卡配置及构建RDMA网络、部署网关服务支持推理服务发布等;
SKE为AICP提供基础运行环境,AICP部署在SKE所在虚拟机及K8S集群上,与SKE共享底层基础设施环境;
SKE提供公用的底层能力,如镜像仓库、采集服务、监控告警服务、日志中心等,AICP通过SKE下发任务到用户K8S集群,AICP复用SKE提供的镜像仓库管理业务镜像,复用数据采集服务进行数据面和管理面之间的信息同步,复用监控告警服务感知数据面任务运行时的监控指标,复用日志中心收集数据面任务运行产生的日志。
- AICP
AICP分为管控面和数据面两个模块:
管控面模块主要管理平台类的各项业务资源,主要包括数据集、模型、镜像、算力池、各类任务(模型训练、模型推理、模型压缩、模型加密)等资源的管理,如将数据集、模型等保存在存储系统,将任务下发到用户K8S集群;
数据面模块运行AICP管理面提交过来的大模型训练、推理、压缩、加密任务,管理任务的全生命周期,并将任务的状态、日志、监控指标等上报给AICP管理面,同步缓存的Checkpoint到存储系统。