AICP算力平台

AICP面向用户提供一站式大模型开发和推理服务,覆盖大模型开发和部署的全流程,包括从数据接入、模型训练、模型管理、模型压缩、模型加密、模型推理的全流程。
点击可切换产品版本
知道了
不再提醒
1.0.0
{{sendMatomoQuery("AICP算力平台","资源监控")}}

资源监控

更新时间:2024-09-04

背景信息

在训练过程中监控 GPU/CPU 使用率具有以下重要意义:

  1. 资源优化:了解 GPU/CPU 的使用率可以帮助确定是否充分利用了硬件资源。如果使用率较低,可能意味着模型架构、数据加载或训练参数设置存在问题,需要进行优化以提高计算效率。相反,如果使用率一直处于高位甚至接近 100%,可能需要考虑增加硬件资源或调整训练配置,以避免系统过载和性能瓶颈。
  2. 性能评估:通过观察使用率的变化趋势,可以评估不同训练阶段或不同参数设置下模型的计算需求和性能表现。例如,在调整学习率、批处理大小或模型结构后,观察 GPU/CPU 使用率的变化来判断这些调整对计算效率的影响。
  3. 故障诊断:如果在训练过程中出现性能下降、错误或不稳定的情况,异常的 GPU/CPU 使用率可能是一个重要的线索。例如,突然的使用率激增或骤降可能暗示硬件故障、软件冲突或内存泄漏等问题。
  4. 成本控制:对于使用云计算资源进行训练的情况,监控 GPU/CPU 使用率可以帮助准确评估计算成本,并根据实际使用情况进行资源配置的调整,以避免不必要的费用支出。
  5. 任务调度:在多任务环境中,了解各个任务的 GPU/CPU 使用率有助于合理安排任务的优先级和执行顺序,确保关键任务能够及时获得足够的计算资源。
  6. 例如,当发现训练过程中 GPU 使用率一直很低,可能需要检查数据并行性是否设置正确,或者考虑增大批处理大小;而如果 CPU 使用率过高,可能需要优化数据预处理代码或检查是否存在后台进程占用过多资源。

总之,监控 GPU/CPU 使用率是训练过程中优化性能、保证稳定性和控制成本的重要手段。

操作步骤

步骤1  登录AICP平台

步骤2 单击左侧导航栏的“模型训练”,进入模型训练管理页面

步骤3 选择对应的训练任务,单击训练名称

descript

步骤4 可自定义资源监控的时间范围,进行资源使用率查看

IMG_256

监控指标说明

参数

监控逻辑

监控意义

GPU显存使用率

定期采集任务容器显存使用数据

监控显存是否充足,防止显存不足导致的性能瓶颈

GPU使用率

定期采集任务容器GPU使用数据

监控GPU负载情况,确保GPU资源的合理利用

CPU使用率

定期采集任务容器CPU使用数据

监控CPU负载情况,防止CPU过载影响系统性能

网络流速

定期采集任务容器网络流量数据

监控网络带宽使用情况,防止网络瓶颈

存储IO

定期采集任务容器存储读写数据

监控存储设备的读写性能,防止IO瓶颈影响系统性能