更新时间:2025-04-12
2025年3月底,深信服刚刚发布了AIPaaS_1.0.3版本,到底如何基于深信服AI PaaS搭建一个简易RAG应用呢?我们通过某企业RAG物料知识库建设做一个demo,同时提供语料库、测试数据集,可以附件下载。
下面让我们愉快的开始应用构建吧!
一、应用构建背景
1.1场景介绍
制造业RAG知识库构建。某制造企业是一家处于装备制造产业链的下游的传统型企业,需要对接上千家上游的元器件供应商。企业有数百名产品设计人员,他们的主要工作就是结合工艺参数的需求,进行物料选型,再给后续环节使用。物料总计有3000余个,对应1万多份物料技术规范书文档。当前,用户是通过手动整理参数表格并结合人工核对来完成物料筛选,完成一个场景的物料选型往往需要数天时间,严重影响生产效率。
1.2 RAG建设需求
① 借助大模型,通过对话的方式,让大模型准确回答其所需要的物料,把这个过程缩短至分钟级;
② 场景问答准确率达到90%以上;
③ 并发使用量50+。
二、应用构建
①通过SCP统一的服务目录进入AI应用创新平台。

②创建一个应用,名称叫做“demo-物料选型助手。应用类型我们选择“智能RAG”,里面内置了RAG最佳实践的一个应用构建模板,它可以帮助用户简单快速构建出高质量的RAG应用。点击“确定”。

③接下来就进入到应用构建的页面,根据指引我们发现,只需要关联知识库就可以完成应用的构建了。


④对于第一次构筑的企业来说,在下拉菜单选择是没有预先准备的知识库的,需要首先“创建知识库”。在这里我们演示导入本地文档场景,单击图上“+”号,知识库类型选择“文本文档”,跳转进入知识库创建页面。PS:后续“同步企业知识库”和“直连企业数据库”建设方式我们单独开贴指引。


⑤创建知识库,选择要导入的知识库文档,选择“打开”,单击“下一步”。这里要注意,单次最多 20 个文件,支持 doc、docx、txt、pdf 格式,单个文件大小须在 100 MB 以内。


⑥对已上传文档进行数据处理,这个过程就是将数据embedding的过程,即向量化过程。页面可选“分片策略”、“数据清洗”,页面右侧可查看文档解析后数据切片效果。实际构筑过程按需选择,最后页面单击“完成”。
同时可以选择高级设置,完成更丰富“解析策略”、“Embedding模型”、“知识增强方式”、“知识增强模型”等其他细化选择。

⑦我们看到,文档已经同步过来了,正在做解析,在“分片”、“问答对”、“段落概要”选项卡中,都能看到有明确数据生成。




⑧待所有分片解析完成后,我们再回到应用构建页面,知识库关联下拉菜单选择“demo-物料选型助手”,再选择“确定”。

⑨最后,在“生成回答”模块框内,选择deepseek模型,选择“确定”,这样就初步完成应用构建啦!
三、应用调优
应用虽然构建完了,但是应用效果还是会存在比较大风险,可能会影响使用效果和用户体验。因此要进行应用评估和调优。
①点击“开始评估”,选择对应的评测集后,启动应用效果评估。这里的评测集是非常重要的,需要企业内部懂真实场景的业务人员一起参与准备,并且要尽可能覆盖业务的各个场景。

②若需临时新增测试数据集,在“测试数据集”选择最右侧“+”号,进入新增测试数据集页面,完成数据集新增。

③评估完成,我们看到准确率只有72%,我们选择“查看”,来具体看下是什么问题。我们看到有“检索不到”、“检索不全”、“回答不全”三类问题。

针对以上问题,根据指引,我们选择“优化”,系统会根据不同的问题,提供不同的优化建议。可以看到,当前主要存在的问题是“检索不到”,有11个问题。我们就先从它,开始优化。打开后,这里会展示出“优化指引”,有三条优化建议:
第一条建议,是让我们确认知识库中是否包含这些答案。我们确认,文档中是包含的。
第二条建议,是确认是否有近义词。我们看了下,确实存在专业词汇,这一条里的NC,经过查询,发现它对应的是电容的“标称容量”。我们把它添加到近义词库中。
第三条建议,建议我们调整检索节点配置,我们打开后发现有召回数量和召回阈值。分别是什么含义呢?举个例子,我想找到一个班级中成绩较好的一部分学生,如果我以90分作为标准,那可能有10个学生被选中,如果我以80分为标准,那可能得到20个。这里的分数值就对应我们AI应用中的召回阈值,被选中的数量就对应我们的召回数量。现在的召回阈值是0.8。那调整到多少呢?我们只要按优化建议,点击这里就可以自动把召回阈值调小。“确定”。这样就快速完成了配置调整。为了检查优化后的效果到底提升了没有,在此点击“重新评估”。这时,系统还会选择相同的评测数据集,提交了第二次评估任务。来对比一下这两次评估结果,很明显,配置调整后,应用的准确率从70%提升到了82%,问题数从11个降到了9个,继续按照指引,经过不断调优最终可达到理想效果,这里不做详细介绍。最后选择“发布”。
四、应用体验
回到AI应用平台主页,我们找到已经发布的“demo-物料选型助手”应用,开始体验。
体验一:我们输入“满足额定电压450并且标称容量8200的物料编号”。发现已经准确回复。

体验二:我们输入“找出尺寸为90*131的物料编号和尺寸图”,显示如下:
