AIPaaS应用开发平台

关注
AIPaaS应用开发平台是一款深信服的RAG方案,通过白盒化RAG,让用户透明化对应用进行效果评估和调优,并提供更全面的评估指标,辅助定位问题,让用户真正用上AI、用好AI

AIPaaS小模型部署
  • 阅读权限:游客
  • 下载
  • 分享
  • 收藏

更新时间:2025-04-12

模型配置选择(以NVIDIA 4090显卡为列)

这里已验证的显卡类型为4090和4090D,理论上主流的N卡是支持的,建议优先使用4090.

  •  一卡部署
  •  两卡部署
  •  四卡部署

备注:目前只适配NVIDIA 显卡,330版本不支持国产卡部署小模型(如:昇腾、天数、海光等)

AIPAAS使用小模型列表

模型类别

模型名称

输出信息

模型厂商

布局分析模型

PP-DocLayout

位置、置信度(判断是什么类型的概率)

 Paddlex(飞浆)

标题识别模型

PP-OCRv4_server_rec_doc 

字符串

 Paddlex(飞浆)

文本识别模型

RapidOCR

字符串

 

表格识别模型

UniTable html

html(用于渲染成表格)

佐治亚理工学院

向量化模型

bge-m3

1024维的向量

BAAI(北京人工智能研究院)

重排模型

bge-reranker-large

重排后的文本列表及相关度分数

BAAI(北京人工智能研究院)

小模型部署方案说明

方案一

资源要求

部署说明

一卡部署

最低资源诉求:

一张4090或4090D

AI PaaS所需的小模型部署在一张GPU卡

服务可靠性说明:

所有小模型服务部署在同容器服务里,若其中某一个小模型服务出现异常,则需要把整个容器重启后才能恢复模型服务。

服务重启期间文档解析、应用对话无法使用。

异常退出后的启动时间,非硬件故障:60s

两卡部署

最低资源诉求:

二张4090或4090D

相比一卡方案,两卡方案是两个上分别部署小模型所有服务。

服务可靠性说明:

相当于启动两个副本,提供模型服务负载能力,提供一定程度的可靠性。
将启动两个副本,速度更快,稳定性更高。

是否能够做智能负载:是

异常退出后的启动时间,非硬件故障:60s

四卡部署

四张4090或4090D

每个服务分别部署在不同的容器和显卡上

ebedding占用一张卡、rerank占用一张卡、OCR类模型占用两张卡

是否能够做智能负载:是

异常退出后的启动时间,非硬件故障:embedding 20s、rerank 20s、OCR类模型60s

 

注意事项

  1.  330版本中所有小模型都通过手动的方式,在SKE后台执行模型服务部署。 (430之后支持从AICP导入模型镜像部署小模型服务)
  2.  所有的模型镜像必须拷贝到GPU服务器后台的/sf/data/appdata/aicp下,否则可能会出现磁盘压满的情况。

选择完配置后,请先浏览对应配置的部署文档,确定无特殊需求后在进行部署,有特殊需求按照文档指示操作

小模型部署拓扑示意图:

 

 

 

文档让我的问题处理变得简单了
选择标签:
更多意见:
手机号码:
如果未能解决您的问题,您可以使用 在线客服 寻求帮助
在线客服