更新时间:2024-09-11
AICP面向用户提供一站式大模型开发和推理服务,覆盖大模型开发和部署的全流程,包括从数据接入、模型训练、模型管理、模型压缩、模型加密、模型推理的全流程。主要功能包括:
- 数据集管理:管理用户上传的各种类型的数据集(预训练数据集、微调数据集),并将数据集存储到外置存储中,提供接口供使用数据集的模块使用;
- 模型管理:管理用户上传的基模型以及任务产出并发布的模型,统一将模型存储到外置存储中,提供接口供使用模型的模块使用;
- 模型训练:提供可视化构建训练任务的页面,获取数据集、模型、算力池、镜像、配置参数等信息组装成训练任务提交到数据面运行,同步管理数据面训练任务的运行状态,展示训练任务的监控指标及日志信息;
- 模型推理:提供可视化构建推理服务的页面,获取模型、算力池、镜像、配置参数等信息组装成推理任务提交到数据面运行,同步管理数据面推理任务的运行状态,展示推理任务的监控指标及日志信息;
- 模型压缩:提供可视化构建压缩任务的页面,获取数据集、模型、算力池、镜像、配置参数等信息组装成压缩任务提交到数据面运行,同步管理数据面压缩任务的运行状态,展示压缩任务的监控指标及日志信息;
- 模型加密:提供可视化构建加密任务的页面,获取模型、算力池、镜像、配置参数等信息组装成加密任务提交到数据面运行,同步管理数据面加密任务的运行状态,展示加密任务的监控指标及日志信息。
- 镜像管理:管理系统内置的各类任务镜像(仅管理员可见),将镜像上传到镜像仓库,提供接口供任务类模块使用,任务可以通过更新镜像快速迭代框架所能支持的范围和能力;
- 算力池管理:管理AICP平台使用到的算力池、存储、网关等基础资源,初始化算力池运行时环境,提供接口供使用算力池的模块使用。
基础库、基模型和训练推理框架则为AICP平台分别提供底层工具、预训练模型和高效的训练与推理流程支持,从而加速和优化大规模模型的开发和应用。在基础库方面,AICP提供了主流的深度学习开发库,包括NVIDIA CUDA、CUDNN、PyTorch、TensorFlow。
NVIDIA CUDA(Compute Unified Device Architecture)和CUDNN(CUDA Deep Neural Network library)是由NVIDIA开发的一种并行计算平台和编程模型和高性能GPU加速库。 二者能够更高效地构建和部署深度学习模型,显著缩短训练时间并提高推理速度。
PyTorch是由Facebook的人工智能研究团队开发和维护的一个开源的深度学习框架,它提供了灵活且动态的计算图,使得开发者可以方便地进行模型构建、调试和调整。TensorFlow是由Google开发和维护的一个开源机器学习和深度学习框架,也提供了一个灵活且全面的生态系统,用于构建和部署AI模型。
在基模型方面,AICP预置了主流的开源大语言模型,包括通义千问(Qwen-72b)、Llama系列(Llama2-7B/13B)、百川系列(Baichuan2-7B/13B)、零一万物(Yi-34b)等基模型,未来也将会不断接入更加丰富的开源大语言模型。
在基础训练推理框架方面,AICP支持vLLM、DeepSpeed、Llama–Factory等框架。
[1]vLLM(Very Large Language Model)是一个处理和部署超大规模语言模型的框架,具备高效训练、分布式架构、灵活性和大规模推理能力,广泛应用于自然语言处理任务,如文本生成、机器翻译和问答系统等。
[2]DeepSpeed是微软开发的深度学习优化库,旨在提升大规模模型的训练效率。主要特点包括高效训练、支持分布式训练、自动混合精度、模型并行性和与PyTorch无缝集成。它显著加速和优化大规模模型的训练和部署。
[3]Llama-Factory是一个专为自动生成、管理和优化大规模语言模型而设计的框架。它简化了从模型设计、训练到部署的整个流程,提供了高效的资源管理和调度功能,支持分布式计算和自动化优化,显著提升了大规模语言模型的开发和应用效率。