AICP算力平台

AICP面向用户提供一站式大模型开发和推理服务,覆盖大模型开发和部署的全流程,包括从数据接入、模型训练、模型管理、模型压缩、模型加密、模型推理的全流程。
点击可切换产品版本
知道了
不再提醒
1.0.0
{{sendMatomoQuery("AICP算力平台","Checkpoint管理")}}

Checkpoint管理

更新时间:2024-09-04

背景信息

通过定期保存、管理 Checkpoint,即使遇到服务器故障,也能在故障解决后迅速恢复训练,不浪费已经花费的计算资源和时间。又比如,在研究新的语音合成模型时,每次调整模型结构或训练参数都保存 Checkpoint,方便比较不同设置下模型的性能,从而找到最优的模型配置。

合理管理和保存checkpoints是确保训练过程顺利进行和模型性能最优的重要手段

操作步骤

步骤1  登录AICP平台

步骤2 单击左侧导航栏的“模型训练”,进入模型训练管理页面

步骤3 选择对应的训练任务,单击训练名称,进入任务详情

descript

步骤4 单击“Checkpoint管理,在页面可查看Checkpoint分布数量、基于某个Checkpoint进行发布、断点训练,以及按需删除Checkpoint

IMG_256

  1. 基于某个checkpoint发布模型:这种方式通常用于中间结果的发布,可能是为了展示模型在某个阶段的性能,或者为了在训练过程中进行调试和验证。发布的模型可能还没有达到最终的最佳性能。
  2. 断点训练:断点训练(Checkpointing Training)是指在训练过程中定期保存模型的状态,以便在训练中断(如因系统故障或资源限制)后可以从最近的checkpoint继续训练,而不必从头开始。应用场景包括:
  3. 长时间训练任务:训练时间较长,系统可能会中途重启或崩溃。
  4. 资源管理:在有限的计算资源下,分阶段进行训练。
  5. 实验管理:在不同的实验中复用部分训练结果,节省时间和资源。
  6. 基于某个checkpoint发布:这种方式通常用于中间结果的发布,可能是为了展示模型在某个阶段的性能,或者为了在训练过程中进行调试和验证。发布的模型可能还没有达到最终的最佳性能。
  7. 删除某个checkpoint的影响取决于具体的训练和管理策略:
  8. 中间checkpoint:如果删除的是中间的checkpoint,通常不会对最终的训练结果产生影响,但会影响到从该checkpoint恢复训练的能力。
  9. 最新checkpoint:如果删除的是最新的checkpoint,可能会导致无法从最近的状态恢复训练,必须从更早的checkpoint或从头开始。
  10. 最佳checkpoint:如果删除的是性能最好的checkpoint,可能会丢失最优模型,影响最终的模型发布和应用。