AICP平台软件-AICP算力平台-深信服技术支持

AICP平台软件

更新时间：2024-09-11

AICP面向用户提供一站式大模型开发和推理服务，覆盖大模型开发和部署的全流程，包括从数据接入、模型训练、模型管理、模型压缩、模型加密、模型推理的全流程。主要功能包括：

数据集管理：管理用户上传的各种类型的数据集（预训练数据集、微调数据集），并将数据集存储到外置存储中，提供接口供使用数据集的模块使用；
模型管理：管理用户上传的基模型以及任务产出并发布的模型，统一将模型存储到外置存储中，提供接口供使用模型的模块使用；
模型训练：提供可视化构建训练任务的页面，获取数据集、模型、算力池、镜像、配置参数等信息组装成训练任务提交到数据面运行，同步管理数据面训练任务的运行状态，展示训练任务的监控指标及日志信息；
模型推理：提供可视化构建推理服务的页面，获取模型、算力池、镜像、配置参数等信息组装成推理任务提交到数据面运行，同步管理数据面推理任务的运行状态，展示推理任务的监控指标及日志信息；
模型压缩：提供可视化构建压缩任务的页面，获取数据集、模型、算力池、镜像、配置参数等信息组装成压缩任务提交到数据面运行，同步管理数据面压缩任务的运行状态，展示压缩任务的监控指标及日志信息；
模型加密：提供可视化构建加密任务的页面，获取模型、算力池、镜像、配置参数等信息组装成加密任务提交到数据面运行，同步管理数据面加密任务的运行状态，展示加密任务的监控指标及日志信息。
镜像管理：管理系统内置的各类任务镜像（仅管理员可见），将镜像上传到镜像仓库，提供接口供任务类模块使用，任务可以通过更新镜像快速迭代框架所能支持的范围和能力；
算力池管理：管理AICP平台使用到的算力池、存储、网关等基础资源，初始化算力池运行时环境，提供接口供使用算力池的模块使用。

基础库、基模型和训练推理框架则为AICP平台分别提供底层工具、预训练模型和高效的训练与推理流程支持，从而加速和优化大规模模型的开发和应用。在基础库方面，AICP提供了主流的深度学习开发库，包括NVIDIA CUDA、CUDNN、PyTorch、TensorFlow。

NVIDIA CUDA（Compute Unified Device Architecture）和CUDNN（CUDA Deep Neural Network library）是由NVIDIA开发的一种并行计算平台和编程模型和高性能GPU加速库。二者能够更高效地构建和部署深度学习模型，显著缩短训练时间并提高推理速度。

PyTorch是由Facebook的人工智能研究团队开发和维护的一个开源的深度学习框架，它提供了灵活且动态的计算图，使得开发者可以方便地进行模型构建、调试和调整。TensorFlow是由Google开发和维护的一个开源机器学习和深度学习框架，也提供了一个灵活且全面的生态系统，用于构建和部署AI模型。

在基模型方面，AICP预置了主流的开源大语言模型，包括通义千问（Qwen-72b）、Llama系列（Llama2-7B/13B）、百川系列（Baichuan2-7B/13B）、零一万物（Yi-34b）等基模型，未来也将会不断接入更加丰富的开源大语言模型。

在基础训练推理框架方面，AICP支持vLLM、DeepSpeed、Llama–Factory等框架。

[1]vLLM（Very Large Language Model）是一个处理和部署超大规模语言模型的框架，具备高效训练、分布式架构、灵活性和大规模推理能力，广泛应用于自然语言处理任务，如文本生成、机器翻译和问答系统等。

[2]DeepSpeed是微软开发的深度学习优化库，旨在提升大规模模型的训练效率。主要特点包括高效训练、支持分布式训练、自动混合精度、模型并行性和与PyTorch无缝集成。它显著加速和优化大规模模型的训练和部署。

[3]Llama-Factory是一个专为自动生成、管理和优化大规模语言模型而设计的框架。它简化了从模型设计、训练到部署的整个流程，提供了高效的资源管理和调度功能，支持分布式计算和自动化优化，显著提升了大规模语言模型的开发和应用效率。

深信服自助服务平台

AICP算力平台

AICP平台软件