AICP算力平台

AICP面向用户提供一站式大模型开发和推理服务,覆盖大模型开发和部署的全流程,包括从数据接入、模型训练、模型管理、模型压缩、模型加密、模型推理的全流程。
点击可切换产品版本
知道了
不再提醒
1.0.0
{{sendMatomoQuery("AICP算力平台","查看训练日志")}}

查看训练日志

更新时间:2024-09-04

背景信息

训练日志功能是为了提供更详尽的训练细节信息给用户,同时也提供了更方便的故障诊断与排查途径。

操作步骤

步骤1 、登录AICP平台

步骤2 、单击左侧导航栏的“模型训练”,进入模型训练管理页面

步骤3 、选择对应的训练任务,单击训练名称,进入任务详情

descript

步骤4 、单击训练日志,在页面可查看训练日志、组件日志

训练日志:记录了worker容器内的详细运行日志,包括训练的参数,训练框架的日志,loss的具体信息,失败的错误堆栈等。用户想详细查看训练任务运行时的具体信息可以看这个日志,或者在故障发生后可以查看该日志进行初步的诊断与分析。

组件日志:记录了launcher容器的生命周期,可以判断训练任务是否成功下发到worker容器,当训练任务一直处于启动中或者很快就启动失败可以查看该日志进行故障排除。