建议使用Chrome浏览器访问！

技术支持

互动社区

学习培训

深信服官网

合作伙伴

深信服自助服务平台

AICP算力平台

关注

AICP面向用户提供一站式大模型开发和推理服务，覆盖大模型开发和部署的全流程，包括从数据接入、模型训练、模型管理、模型压缩、模型加密、模型推理的全流程。

搜本产品

点击可切换产品版本

知道了

不再提醒

1.0.0

更新时间：2024-09-04

背景信息

模型服务推理速度慢或者响应时间长时，可以观察监控指标信息，判断是否达到性能瓶颈。

操作步骤

步骤1 登录AICP平台

步骤2 单击左侧导航栏的“模型服务”，进入模型推理管理页面

descript

步骤3 选择对应的推理任务，单击任务名称，进入推理任务详情

descript

步骤4 在推理任务详情，单击“监控”可查看推理任务的监控指标情况

descript

步骤5 在推理任务监控页面，可查看推理任务的如下监控指标情况

监控指标说明

参数	参数解释及监控逻辑	监控意义
调用量	模型服务调用次数	统计模型服务请求量，便于分析业务流量
QPS	模型服务每秒接收请求数	统计模型服务当前的请求速率，便于及时扩容
吞吐	模型服务推理速度	统计模型服务当前的推理速度，观察是否存在性能瓶颈
首字符时延	模型服务收到请求后生成第一个token的时间	统计模型服务每个请求的响应速度，观察是否存在性能瓶颈
GPU显存使用率	模型服务使用的GPU显存占用百分比	提前发现显存是否到达瓶颈，及时扩容
GPU使用率	模型服务使用的GPU算力占用百分比	提前发现GPU算力是否到达瓶颈，及时扩容
CPU使用率	模型服务使用的CPU占用百分比	提前发现CPU是否到达瓶颈，及时扩容
内存使用率	模型服务使用的内存占用百分比	提前发现内存是否到达瓶颈，及时扩容

文档让我的问题处理变得简单了

如果未能解决您的问题，您可以使用在线客服寻求帮助

文档反馈