更新时间:2024-09-04
背景信息
模型服务推理速度慢或者响应时间长时,可以观察监控指标信息,判断是否达到性能瓶颈。
操作步骤
步骤1 登录AICP平台
步骤2 单击左侧导航栏的“模型服务”,进入模型推理管理页面

步骤3 选择对应的推理任务,单击任务名称,进入推理任务详情

步骤4 在推理任务详情,单击“监控”可查看推理任务的监控指标情况

步骤5 在推理任务监控页面,可查看推理任务的如下监控指标情况

监控指标说明
参数 | 参数解释及监控逻辑 | 监控意义 |
调用量 | 模型服务调用次数 | 统计模型服务请求量,便于分析业务流量 |
QPS | 模型服务每秒接收请求数 | 统计模型服务当前的请求速率,便于及时扩容 |
吞吐 | 模型服务推理速度 | 统计模型服务当前的推理速度,观察是否存在性能瓶颈 |
首字符时延 | 模型服务收到请求后生成第一个token的时间 | 统计模型服务每个请求的响应速度,观察是否存在性能瓶颈 |
GPU显存使用率 | 模型服务使用的GPU显存占用百分比 | 提前发现显存是否到达瓶颈,及时扩容 |
GPU使用率 | 模型服务使用的GPU算力占用百分比 | 提前发现GPU算力是否到达瓶颈,及时扩容 |
CPU使用率 | 模型服务使用的CPU占用百分比 | 提前发现CPU是否到达瓶颈,及时扩容 |
内存使用率 | 模型服务使用的内存占用百分比 | 提前发现内存是否到达瓶颈,及时扩容 |