建议使用Chrome浏览器访问!
技术支持
互动社区
学习培训
深信服官网
合作伙伴

AICP算力平台

关注
AICP面向用户提供一站式大模型开发和推理服务,覆盖大模型开发和部署的全流程,包括从数据接入、模型训练、模型管理、模型压缩、模型加密、模型推理的全流程。
点击可切换产品版本
知道了
1.0.0

查看监控信息
  • 阅读权限:游客
  • 下载
  • 分享
  • 收藏

更新时间:2024-09-04

背景信息

模型服务推理速度慢或者响应时间长时,可以观察监控指标信息,判断是否达到性能瓶颈。

操作步骤

步骤1  登录AICP平台

步骤2  单击左侧导航栏的“模型服务”,进入模型推理管理页面

descript

步骤3 选择对应的推理任务,单击任务名称,进入推理任务详情

descript

步骤4 在推理任务详情,单击“监控”可查看推理任务的监控指标情况

descript

步骤5 在推理任务监控页面,可查看推理任务的如下监控指标情况

IMG_256

监控指标说明

参数

参数解释及监控逻辑

监控意义

调用量

模型服务调用次数

统计模型服务请求量,便于分析业务流量

QPS

模型服务每秒接收请求数

统计模型服务当前的请求速率,便于及时扩容

吞吐

模型服务推理速度

统计模型服务当前的推理速度,观察是否存在性能瓶颈

首字符时延

模型服务收到请求后生成第一个token的时间

统计模型服务每个请求的响应速度,观察是否存在性能瓶颈

GPU显存使用率

模型服务使用的GPU显存占用百分比

提前发现显存是否到达瓶颈,及时扩容

GPU使用率

模型服务使用的GPU算力占用百分比

提前发现GPU算力是否到达瓶颈,及时扩容

CPU使用率

模型服务使用的CPU占用百分比

提前发现CPU是否到达瓶颈,及时扩容

内存使用率

模型服务使用的内存占用百分比

提前发现内存是否到达瓶颈,及时扩容

文档让我的问题处理变得简单了
选择标签:
更多意见:
手机号码:
如果未能解决您的问题,您可以使用 在线客服 寻求帮助
在线客服
您当前处于未登录状态,资料搜索或查找可能会不全面,请登录后以查找更全面的内容注册登录