建议使用Chrome浏览器访问!
技术支持
互动社区
学习培训
深信服官网
合作伙伴

AIPaaS应用开发平台

关注
AIPaaS应用开发平台是一款深信服的RAG方案,通过白盒化RAG,让用户透明化对应用进行效果评估和调优,并提供更全面的评估指标,辅助定位问题,让用户真正用上AI、用好AI

两卡部署小模型
  • 阅读权限:游客
  • 下载
  • 分享
  • 收藏

更新时间:2025-04-27

物料类型

物料名称

注意事项

镜像包

1. pentomino-models.tar

2. pdf2text.tar

镜像包

1. pentomino-models.tar

2. pdf2text.tar

helm包

1. pentomino-models.tgz

2. pdf2text.tgz

放至GPU服务器/sf/data/appdata/aicp目录

helm包

1. pentomino-models.tgz

2. pdf2text.tgz

部署脚本

1. model_deploy_double_gpu.sh

2. aipaas-gateway-models_kaas_gateway.sh

1.model_deploy_single_gpu.sh 要 在 GPU 服务器执行。

2.aipaas-gateway-models_kaas_gateway  .sh  需要在 SKE 后台执行,执行前, 请务必按以下操作,创建云原生网关 aipaas-models

再次提醒:一定要将镜像包pentomino-models.tar、pdf2text.tar和helm包pentomino-models.tgz、pdf2text.tgz放至GPU服务器后台/sf/data/appdata/aicp目录下

 

 

创建网关instance 

(1)登录scp进入容器服务

(2)选择集群管理

 

(3)选择负载均衡器

 

 

(4)创建负载均衡器。名称为aipaas-models(这里不要修改,否则后续脚本也要修改),外部IP要找一个和GPU服务器业务网同网段且ping不同的ip

 

(5)创建完成后这里可以查到

 

(6)进入AICP

(7)进入资源管理

 

 

(8)进入网关配置

(9)创建网关,这里网关名字要和刚刚创建的负载均衡器名字保持一致,同时选择指定的算力池

(10)点击创建之后可以看到相关的规格信息

到这里网关instance创建已完成,接下来是执行脚本创建网关、路由和拉起模型服务的流程。
执行脚本前注意事项:如有特殊需求,请不要立即执行脚本,请先浏览附录(文档尾部),确定好要修改的参数后在执行脚本。

 

 

apikey调整(托管云必须,私有化部署可选)  

备注:apikey, 托管云上必须修改,私有化部署按需调整  

编辑aipaas-gateway-models_kaas_gateway.sh脚本,修改脚本中下面的三个常量,然后再操作。  

AIPAAS_EMBEDDING_APIKEY="sk-jwaRNx5UJxB9WVZf7UgdRKuMOPPRkMn_w1YgUbhb20I" 
AIPAAS_RERANK_APIKEY="sk-jwaRNx5UJxB9WVZf7UgdRKuMOPPRkMn_w1YgUbhb20I"
AIPAAS_PDF2TEXT_APIKEY="sk-jwaRNx5UJxB9WVZf7UgdRKuMOPPRkMn_w1YgUbhb20I"

 

SKE上执行aipaas-gateway-models_kaas_gateway.sh脚本 

chmod +x  aipaas-gateway-models_kaas_gateway.sh
./aipaas-gateway-models_kaas_gateway.sh

在GPU服务上执行 model_deploy_single_gpu.sh 脚本 

chmod +x model_deploy_single_gpu.sh
./model_deploy_single_gpu.sh

 

部署后检查和使用

kubectl get pods |grep -E  'models|pdf2text'

裸金属后台观察模型服务均为Running, aipaas可以通过模型管理进行添加小模型,接入平台使用

 

小模型访问入口 

embedding: "http://网关IP:30081/v1/" 模型名称:bge-m3

rerank: "http://网关IP:30082/v1/" 模型名称:bge-reranker-large

ocr: "http://网关IP:30085/v1/ocr 模型名称:ocr

p2t:"http://网关IP:30085/v1/pdfparse 模型名称:P2T

所有模型的apikey:sk-jwaRNx5UJxB9WVZf7UgdRKuMOPPRkMn_w1YgUbhb20I

模型部署到此结束,模型服务对接和有效性测试,请查看AIPAAS用户手册模型管理章节,如有问题请联系相关技术人员。

 

 

 

 

文档让我的问题处理变得简单了
选择标签:
更多意见:
手机号码:
如果未能解决您的问题,您可以使用 在线客服 寻求帮助
在线客服