AICP算力平台

AICP面向用户提供一站式大模型开发和推理服务,覆盖大模型开发和部署的全流程,包括从数据接入、模型训练、模型管理、模型压缩、模型加密、模型推理的全流程。
点击可切换产品版本
知道了
不再提醒
1.0.0
{{sendMatomoQuery("AICP算力平台","查看监控信息")}}

查看监控信息

更新时间:2024-09-04

背景信息

模型服务推理速度慢或者响应时间长时,可以观察监控指标信息,判断是否达到性能瓶颈。

操作步骤

步骤1  登录AICP平台

步骤2  单击左侧导航栏的“模型服务”,进入模型推理管理页面

descript

步骤3 选择对应的推理任务,单击任务名称,进入推理任务详情

descript

步骤4 在推理任务详情,单击“监控”可查看推理任务的监控指标情况

descript

步骤5 在推理任务监控页面,可查看推理任务的如下监控指标情况

IMG_256

监控指标说明

参数

参数解释及监控逻辑

监控意义

调用量

模型服务调用次数

统计模型服务请求量,便于分析业务流量

QPS

模型服务每秒接收请求数

统计模型服务当前的请求速率,便于及时扩容

吞吐

模型服务推理速度

统计模型服务当前的推理速度,观察是否存在性能瓶颈

首字符时延

模型服务收到请求后生成第一个token的时间

统计模型服务每个请求的响应速度,观察是否存在性能瓶颈

GPU显存使用率

模型服务使用的GPU显存占用百分比

提前发现显存是否到达瓶颈,及时扩容

GPU使用率

模型服务使用的GPU算力占用百分比

提前发现GPU算力是否到达瓶颈,及时扩容

CPU使用率

模型服务使用的CPU占用百分比

提前发现CPU是否到达瓶颈,及时扩容

内存使用率

模型服务使用的内存占用百分比

提前发现内存是否到达瓶颈,及时扩容