更新时间:2025-04-12
模型配置选择(以NVIDIA 4090显卡为列)
这里已验证的显卡类型为4090和4090D,理论上主流的N卡是支持的,建议优先使用4090.
备注:目前只适配NVIDIA 显卡,330版本不支持国产卡部署小模型(如:昇腾、天数、海光等)
AIPAAS使用小模型列表
模型类别 | 模型名称 | 输出信息 | 模型厂商 |
布局分析模型 | PP-DocLayout | 位置、置信度(判断是什么类型的概率) | Paddlex(飞浆) |
标题识别模型 | PP-OCRv4_server_rec_doc | 字符串 | Paddlex(飞浆) |
文本识别模型 | RapidOCR | 字符串 | |
表格识别模型 | UniTable html | html(用于渲染成表格) | 佐治亚理工学院 |
向量化模型 | bge-m3 | 1024维的向量 | BAAI(北京人工智能研究院) |
重排模型 | bge-reranker-large | 重排后的文本列表及相关度分数 | BAAI(北京人工智能研究院) |
小模型部署方案说明
方案一 | 资源要求 | 部署说明 |
一卡部署 | 最低资源诉求: 一张4090或4090D | AI PaaS所需的小模型部署在一张GPU卡 服务可靠性说明: 所有小模型服务部署在同容器服务里,若其中某一个小模型服务出现异常,则需要把整个容器重启后才能恢复模型服务。 服务重启期间文档解析、应用对话无法使用。 异常退出后的启动时间,非硬件故障:60s |
两卡部署 | 最低资源诉求: 二张4090或4090D | 相比一卡方案,两卡方案是两个上分别部署小模型所有服务。 服务可靠性说明: 相当于启动两个副本,提供模型服务负载能力,提供一定程度的可靠性。 将启动两个副本,速度更快,稳定性更高。 是否能够做智能负载:是 异常退出后的启动时间,非硬件故障:60s |
四卡部署 | 四张4090或4090D | 每个服务分别部署在不同的容器和显卡上 ebedding占用一张卡、rerank占用一张卡、OCR类模型占用两张卡 是否能够做智能负载:是 异常退出后的启动时间,非硬件故障:embedding 20s、rerank 20s、OCR类模型60s |
注意事项
- 330版本中所有小模型都通过手动的方式,在SKE后台执行模型服务部署。 (430之后支持从AICP导入模型镜像部署小模型服务)
- 所有的模型镜像必须拷贝到GPU服务器后台的/sf/data/appdata/aicp下,否则可能会出现磁盘压满的情况。
选择完配置后,请先浏览对应配置的部署文档,确定无特殊需求后在进行部署,有特殊需求按照文档指示操作
小模型部署拓扑示意图:
