AICP算力平台

AICP面向用户提供一站式大模型开发和推理服务,覆盖大模型开发和部署的全流程,包括从数据接入、模型训练、模型管理、模型压缩、模型加密、模型推理的全流程。
点击可切换产品版本
知道了
不再提醒
1.0.0
{{sendMatomoQuery("AICP算力平台","创建模型压缩(量化)")}}

创建模型压缩(量化)

更新时间:2024-09-04

背景信息

模型压缩是一种用于减少大语言模型的存储和计算资源需求,同时尽量保持其性能和准确性的技术。

模型压缩的意义:

  1. 降低资源消耗:大语言模型通常需要大量的计算资源和存储空间。通过压缩,可以显著减少这些需求,使得模型在资源受限的环境中也能运行。
  2. 提高效率:压缩后的模型可以加快推理速度,减少延迟,从而提高用户体验。
  3. 降低成本:减少计算和存储资源的需求,直接降低了运行和维护的成本。
  4. 便于部署:压缩后的模型更易于在移动设备、嵌入式系统等资源有限的设备上部署,扩大了应用场景。

前提条件

  1. 算力池的创建;
  2. 平台存储的配置;
  3. 上传支持压缩的模型;
  4. 如果需要使用对齐数据集还需要上传对应数据集;

完成上述步骤后,才可以启动模型压缩任务。

约束与限制

  1. 当前仅支持压缩平台支持的模型
  2. 压缩程度仅支持int4
  3. 已压缩的模型不支持压缩
  4. 加密过的模型不支持压缩
  5. 压缩使用的gpu需要是平台支持的显卡
  6. 压缩实例数不超过500

操作步骤

步骤1 使用浏览器,用SCP的管理员或SCP租户登录SCP控制台

管理员场景登录地址:https:// SCP的访问地址:4430。例如https://192.168.200.100:4430/

租户场景登录地址:https:// SCP的访问地址。例如https://192.168.200.100

步骤2  在导航栏左上角单击 ,选择人工智能模块,选择“AI算力平台 ”,进

AICP控制台页面

步骤3  单击左侧导航栏的“模型调优”展开功能,继续单击“模型压缩”,进入模型压缩管理页面,即量化

descript

步骤4 在模型压缩页面,单击“创建”,进入压缩创建页面

descript

步骤5 在创建模型压缩页面,填写相关配置进行任务压缩

参数说明

参数

解释

推荐样例

源模型

需要进行压缩的模型

Yi-34b

对齐数据集

对齐数据集仅支持选择微调数据集;若当前模型由微调训练任务创建,则建议选择与训练相同的微调数据集,否则将影响压缩效果;若当前模型由预训练创建或平台外部导入,则可不选。

在模型压缩过程中,使用对齐数据集(alignment dataset)是为了确保压缩后的模型在性能和准确性上尽可能接近原始模型。

压缩模型预训练/微调时使用的数据集;如果是开源基础模型,可以选择AICP默认对齐数据集或者是HuggingFace社区开源的通用数据集

压缩程度

压缩后的精度

int4

算力池

压缩时使用的算力资源池

按需选择

算力规格

压缩任务使用的算力规格

按需选择

自定义系统 prompt

自定义的系统提示词,自定义系统 prompt 为用户提供了一种灵活且有力的方式,来塑造和优化 AI 模型的输出,以满足各种多样化和个性化的需求。

压缩模型预训练/微调时使用的系统prompt