更新时间:2025-04-27
部署说明
AIPaaS部署主要分为模型服务部署和AIPaaS平台部署两部分,模型服务部署主要是在GPU裸金属服务上部署模型,模型有LLM、Embedding、Rerank、P2T和GOT五种,提供模型能力,给AIPaaS平台去调用,统一通过SKE+AICP方案进行部署,SKE纳管的裸金属手动部署小模型,由AICP部署大模型推理服务;AIPaaS平台是部署的AI应用平台,提供AI应用开发等能力。
整机推荐方案
小模型部署推荐方案啊
卡数 | 打包方案 | 最低配置 |
1卡 | AI PaaS小模型一个镜像 | 每张显存大小:不低于24G(如4090/4090d) |
2卡 | AI PaaS小模型一个镜像(每个卡部署一个镜像) | 每张显存大小:不低于24G(如4090/4090d) |
AICP+AIPAAS整体模型部署方案推荐
1.四卡部署场景
卡(数量) | 部署模型 | 性能 |
1 | Qwen2.5-7B(fp16) | 待验证 |
1 | embedding + Rerank + P2T | 文档解析性能: ①单 20M PDF 10 分钟 ②6 个 20M PDF 并发 20 分钟 用户并发:50 |
2 | Qwen-32B-AWQ(int4)-qwen2.5 | 总 token/并发/TTFT ① 4k/8/4.6s ② 4k/16/8s |
2 | qwen-14B(fp16) -qwen2.5 | 总 token/并发/TTFT ①8k/8/3.5s ②8k/16/5.8s |
2.8卡部署场景
卡(数量) | 部署模型 | 性能 |
4 | Deepseek671 (int2.5+fp8) | 已天启实验室提供的数据为准 |
2 | embedding + Rerank + P2T | 文档解析性能: ①单 20M PDF 10 分钟 ②6 个 20M PDF 并发 16 分钟 用户并发:50 |
2 | Qwen-32B-AWQ(int4)-qwen2.5 | 总 token/并发/TTFT ① 4k/8/4.6s ② 4k/16/8s |
2 | qwen-14B(fp16) -qwen2.5 | 总 token/并发/TTFT ①8k/8/3.5s ②8k/16/5.8s |