AIPaaS应用开发平台

关注
AIPaaS应用开发平台是一款深信服的RAG方案,通过白盒化RAG,让用户透明化对应用进行效果评估和调优,并提供更全面的评估指标,辅助定位问题,让用户真正用上AI、用好AI

安装部署
  • 阅读权限:游客
  • 下载
  • 分享
  • 收藏

更新时间:2025-04-27

部署说明

AIPaaS部署主要分为模型服务部署和AIPaaS平台部署两部分,模型服务部署主要是在GPU裸金属服务上部署模型,模型有LLM、Embedding、Rerank、P2T和GOT五种,提供模型能力,给AIPaaS平台去调用,统一通过SKE+AICP方案进行部署,SKE纳管的裸金属手动部署小模型,由AICP部署大模型推理服务;AIPaaS平台是部署的AI应用平台,提供AI应用开发等能力。

 

整机推荐方案

小模型部署推荐方案啊

卡数 打包方案 最低配置
1卡 AI PaaS小模型一个镜像 每张显存大小:不低于24G(如4090/4090d)
2卡    AI PaaS小模型一个镜像(每个卡部署一个镜像) 每张显存大小:不低于24G(如4090/4090d)

 

 

AICP+AIPAAS整体模型部署方案推荐

1.四卡部署场景

卡(数量)

部署模型

性能

1

Qwen2.5-7B(fp16)

待验证

 

 

 

1

 

 

 

embedding + Rerank + P2T

文档解析性能:

①单 20M PDF  10 分钟

②6 个 20M PDF 并发 20 分钟 用户并发:50

 

2

 

Qwen-32B-AWQ(int4)-qwen2.5

总 token/并发/TTFT

① 4k/8/4.6s

② 4k/16/8s

2

qwen-14B(fp16) -qwen2.5

总 token/并发/TTFT

①8k/8/3.5s

②8k/16/5.8s

 

2.8卡部署场景

卡(数量)

部署模型

性能

4

Deepseek671 (int2.5+fp8)

已天启实验室提供的数据为准

 

 

 

2

 

 

 

embedding + Rerank + P2T

文档解析性能:

①单 20M PDF  10 分钟

②6 个 20M PDF 并发 16 分钟 

用户并发:50

 

 

 

 

 

 

2

 

 

Qwen-32B-AWQ(int4)-qwen2.5

总 token/并发/TTFT

① 4k/8/4.6s

② 4k/16/8s

2

 

 

qwen-14B(fp16) -qwen2.5

总 token/并发/TTFT

①8k/8/3.5s

②8k/16/5.8s

 

① AIPAAS 模型目前只支持 N 卡 ,国产卡不支持

② 4 卡、8 卡方案中的单卡显存大小不能低于 24G(即:不能低于 4090 的配置)

 

 

文档让我的问题处理变得简单了
选择标签:
更多意见:
手机号码:
如果未能解决您的问题,您可以使用 在线客服 寻求帮助
在线客服
文档让我的问题处理变得简单了