更新时间:2025-04-27
物料类型 | 物料名称 | 注意事项 |
镜像包 | 1. pentomino-models.tar 2. pdf2text.tar | 镜像包 1. pentomino-models.tar 2. pdf2text.tar helm包 1. pentomino-models.tgz 2. pdf2text.tgz 放至GPU服务器/sf/data/appdata/aicp目录 |
helm包 | 1. pentomino-models.tgz 2. pdf2text.tgz |
部署脚本 | 1. model_deploy_double_gpu.sh 2. aipaas-gateway-models_kaas_gateway.sh | 1.model_deploy_single_gpu.sh 要 在 GPU 服务器执行。 2.aipaas-gateway-models_kaas_gateway .sh 需要在 SKE 后台执行,执行前, 请务必按以下操作,创建云原生网关 aipaas-models |
再次提醒:一定要将镜像包pentomino-models.tar、pdf2text.tar和helm包pentomino-models.tgz、pdf2text.tgz放至GPU服务器后台/sf/data/appdata/aicp目录下
创建网关instance
(1)登录scp进入容器服务

(2)选择集群管理

(3)选择负载均衡器

(4)创建负载均衡器。名称为aipaas-models(这里不要修改,否则后续脚本也要修改),外部IP要找一个和GPU服务器业务网同网段且ping不同的ip

(5)创建完成后这里可以查到

(6)进入AICP

(7)进入资源管理

(8)进入网关配置

(9)创建网关,这里网关名字要和刚刚创建的负载均衡器名字保持一致,同时选择指定的算力池

(10)点击创建之后可以看到相关的规格信息

到这里网关instance创建已完成,接下来是执行脚本创建网关、路由和拉起模型服务的流程。
执行脚本前注意事项:如有特殊需求,请不要立即执行脚本,请先浏览附录(文档尾部),确定好要修改的参数后在执行脚本。
apikey调整(托管云必须,私有化部署可选)
备注:apikey, 托管云上必须修改,私有化部署按需调整
编辑aipaas-gateway-models_kaas_gateway.sh脚本,修改脚本中下面的三个常量,然后再操作。
AIPAAS_EMBEDDING_APIKEY="sk-jwaRNx5UJxB9WVZf7UgdRKuMOPPRkMn_w1YgUbhb20I"
AIPAAS_RERANK_APIKEY="sk-jwaRNx5UJxB9WVZf7UgdRKuMOPPRkMn_w1YgUbhb20I"
AIPAAS_PDF2TEXT_APIKEY="sk-jwaRNx5UJxB9WVZf7UgdRKuMOPPRkMn_w1YgUbhb20I"

SKE上执行aipaas-gateway-models_kaas_gateway.sh脚本
chmod +x aipaas-gateway-models_kaas_gateway.sh
./aipaas-gateway-models_kaas_gateway.sh
在GPU服务上执行 model_deploy_single_gpu.sh 脚本
chmod +x model_deploy_single_gpu.sh
./model_deploy_single_gpu.sh
部署后检查和使用
kubectl get pods |grep -E 'models|pdf2text'
裸金属后台观察模型服务均为Running, aipaas可以通过模型管理进行添加小模型,接入平台使用

小模型访问入口
embedding: "http://网关IP:30081/v1/" 模型名称:bge-m3 rerank: "http://网关IP:30082/v1/" 模型名称:bge-reranker-large ocr: "http://网关IP:30085/v1/ocr 模型名称:ocr p2t:"http://网关IP:30085/v1/pdfparse 模型名称:P2T 所有模型的apikey:sk-jwaRNx5UJxB9WVZf7UgdRKuMOPPRkMn_w1YgUbhb20I |
模型部署到此结束,模型服务对接和有效性测试,请查看AIPAAS用户手册模型管理章节,如有问题请联系相关技术人员。