更新时间:2024-09-04
背景信息
模型压缩是一种用于减少大语言模型的存储和计算资源需求,同时尽量保持其性能和准确性的技术。
模型压缩的意义:
- 降低资源消耗:大语言模型通常需要大量的计算资源和存储空间。通过压缩,可以显著减少这些需求,使得模型在资源受限的环境中也能运行。
- 提高效率:压缩后的模型可以加快推理速度,减少延迟,从而提高用户体验。
- 降低成本:减少计算和存储资源的需求,直接降低了运行和维护的成本。
- 便于部署:压缩后的模型更易于在移动设备、嵌入式系统等资源有限的设备上部署,扩大了应用场景。
前提条件
- 算力池的创建;
- 平台存储的配置;
- 上传支持压缩的模型;
- 如果需要使用对齐数据集还需要上传对应数据集;
完成上述步骤后,才可以启动模型压缩任务。
约束与限制
- 当前仅支持压缩平台支持的模型
- 压缩程度仅支持int4
- 已压缩的模型不支持压缩
- 加密过的模型不支持压缩
- 压缩使用的gpu需要是平台支持的显卡
- 压缩实例数不超过500
操作步骤
步骤1 使用浏览器,用SCP的管理员或SCP租户登录SCP控制台
管理员场景登录地址:https:// SCP的访问地址:4430。例如https://192.168.200.100:4430/
租户场景登录地址:https:// SCP的访问地址。例如https://192.168.200.100
步骤2 在导航栏左上角单击 ,选择人工智能模块,选择“AI算力平台 ”,进
入AICP控制台页面
步骤3 单击左侧导航栏的“模型调优”展开功能,继续单击“模型压缩”,进入模型压缩管理页面,即量化
步骤4 在模型压缩页面,单击“创建”,进入压缩创建页面
步骤5 在创建模型压缩页面,填写相关配置进行任务压缩
参数说明
参数 |
解释 |
推荐样例 |
源模型 |
需要进行压缩的模型 |
Yi-34b |
对齐数据集 |
对齐数据集仅支持选择微调数据集;若当前模型由微调训练任务创建,则建议选择与训练相同的微调数据集,否则将影响压缩效果;若当前模型由预训练创建或平台外部导入,则可不选。 在模型压缩过程中,使用对齐数据集(alignment dataset)是为了确保压缩后的模型在性能和准确性上尽可能接近原始模型。 |
压缩模型预训练/微调时使用的数据集;如果是开源基础模型,可以选择AICP默认对齐数据集或者是HuggingFace社区开源的通用数据集 |
压缩程度 |
压缩后的精度 |
int4 |
算力池 |
压缩时使用的算力资源池 |
按需选择 |
算力规格 |
压缩任务使用的算力规格 |
按需选择 |
自定义系统 prompt |
自定义的系统提示词,自定义系统 prompt 为用户提供了一种灵活且有力的方式,来塑造和优化 AI 模型的输出,以满足各种多样化和个性化的需求。 |
压缩模型预训练/微调时使用的系统prompt |