更新时间:2024-09-04
背景信息
模型服务推理速度慢或者响应时间长时,可以观察监控指标信息,判断是否达到性能瓶颈。
操作步骤
步骤1 登录AICP平台
步骤2 单击左侧导航栏的“模型服务”,进入模型推理管理页面
步骤3 选择对应的推理任务,单击任务名称,进入推理任务详情
步骤4 在推理任务详情,单击“监控”可查看推理任务的监控指标情况
步骤5 在推理任务监控页面,可查看推理任务的如下监控指标情况
监控指标说明
参数 |
参数解释及监控逻辑 |
监控意义 |
调用量 |
模型服务调用次数 |
统计模型服务请求量,便于分析业务流量 |
QPS |
模型服务每秒接收请求数 |
统计模型服务当前的请求速率,便于及时扩容 |
吞吐 |
模型服务推理速度 |
统计模型服务当前的推理速度,观察是否存在性能瓶颈 |
首字符时延 |
模型服务收到请求后生成第一个token的时间 |
统计模型服务每个请求的响应速度,观察是否存在性能瓶颈 |
GPU显存使用率 |
模型服务使用的GPU显存占用百分比 |
提前发现显存是否到达瓶颈,及时扩容 |
GPU使用率 |
模型服务使用的GPU算力占用百分比 |
提前发现GPU算力是否到达瓶颈,及时扩容 |
CPU使用率 |
模型服务使用的CPU占用百分比 |
提前发现CPU是否到达瓶颈,及时扩容 |
内存使用率 |
模型服务使用的内存占用百分比 |
提前发现内存是否到达瓶颈,及时扩容 |