安装部署

阅读权限：游客
下载
分享本内容
微博

QQ

QQ 空间

复制链接
分享
收藏

更新时间：2025-04-27

部署说明

AIPaaS部署主要分为模型服务部署和AIPaaS平台部署两部分，模型服务部署主要是在GPU裸金属服务上部署模型，模型有LLM、Embedding、Rerank、P2T和GOT五种，提供模型能力，给AIPaaS平台去调用，统一通过SKE+AICP方案进行部署，SKE纳管的裸金属手动部署小模型，由AICP部署大模型推理服务；AIPaaS平台是部署的AI应用平台，提供AI应用开发等能力。

整机推荐方案

小模型部署推荐方案啊

卡数	打包方案	最低配置
1卡	AI PaaS小模型一个镜像	每张显存大小：不低于24G（如4090/4090d）
2卡	AI PaaS小模型一个镜像（每个卡部署一个镜像）	每张显存大小：不低于24G（如4090/4090d）

AICP+AIPAAS整体模型部署方案推荐

1.四卡部署场景

卡(数量)	部署模型	性能
1	Qwen2.5-7B（fp16)	待验证
1	embedding + Rerank + P2T	文档解析性能： ①单 20M PDF 10 分钟 ②6 个 20M PDF 并发 20 分钟用户并发：50
2	Qwen-32B-AWQ(int4）-qwen2.5	总 token/并发/TTFT ① 4k/8/4.6s ② 4k/16/8s
2	qwen-14B(fp16) -qwen2.5	总 token/并发/TTFT ①8k/8/3.5s ②8k/16/5.8s

2.8卡部署场景

卡(数量)

部署模型

性能

Deepseek671 （int2.5+fp8)

已天启实验室提供的数据为准

embedding + Rerank + P2T

文档解析性能：

①单 20M PDF 10 分钟

②6 个 20M PDF 并发 16 分钟

用户并发：50

Qwen-32B-AWQ(int4）-qwen2.5

总 token/并发/TTFT

① 4k/8/4.6s

② 4k/16/8s

qwen-14B(fp16) -qwen2.5

总 token/并发/TTFT

①8k/8/3.5s

②8k/16/5.8s

① AIPAAS 模型目前只支持 N 卡，国产卡不支持

② 4 卡、8 卡方案中的单卡显存大小不能低于 24G(即：不能低于 4090 的配置）

文档让我的问题处理变得简单了

如果未能解决您的问题，您可以使用在线客服寻求帮助

深信服自助服务平台

AIPaaS应用开发平台

安装部署
阅读权限：游客

下载

分享

收藏

部署说明

整机推荐方案

小模型部署推荐方案啊

AICP+AIPAAS整体模型部署方案推荐

深信服自助服务平台

AIPaaS应用开发平台

安装部署 阅读权限：游客 下载pdf 下载 分享本内容 微博 QQ QQ 空间 链接复制成功 复制链接 分享 收藏本内容 收藏

部署说明

整机推荐方案

小模型部署推荐方案啊

AICP+AIPAAS整体模型部署方案推荐

安装部署
阅读权限：游客

下载

分享

收藏