AIPaaS应用开发平台

关注
AIPaaS应用开发平台是一款深信服的RAG方案,通过白盒化RAG,让用户透明化对应用进行效果评估和调优,并提供更全面的评估指标,辅助定位问题,让用户真正用上AI、用好AI

RAG应用开发最佳实践
  • 阅读权限:游客
  • 下载
  • 分享
  • 收藏

更新时间:2025-04-12
2025年3月底,深信服刚刚发布了AIPaaS_1.0.3版本,到底如何基于深信服AI PaaS搭建一个简易RAG应用呢?我们通过某企业RAG物料知识库建设做一个demo,同时提供语料库、测试数据集,可以附件下载。
    下面让我们愉快的开始应用构建吧!
一、应用构建背景
1.1场景介绍
    制造业RAG知识库构建。某制造企业是一家处于装备制造产业链的下游的传统型企业,需要对接上千家上游的元器件供应商。企业有数百名产品设计人员,他们的主要工作就是结合工艺参数的需求,进行物料选型,再给后续环节使用。物料总计有3000余个,对应1万多份物料技术规范书文档。当前,用户是通过手动整理参数表格并结合人工核对来完成物料筛选,完成一个场景的物料选型往往需要数天时间,严重影响生产效率。
1.2 RAG建设需求
    ① 借助大模型,通过对话的方式,让大模型准确回答其所需要的物料,把这个过程缩短至分钟级;
    ② 场景问答准确率达到90%以上;
    ③ 并发使用量50+。


二、应用构建
①通过SCP统一的服务目录进入AI应用创新平台。
   
②创建一个应用,名称叫做“demo-物料选型助手。应用类型我们选择“智能RAG”,里面内置了RAG最佳实践的一个应用构建模板,它可以帮助用户简单快速构建出高质量的RAG应用。点击“确定”。

③接下来就进入到应用构建的页面,根据指引我们发现,只需要关联知识库就可以完成应用的构建了。

 
 
④对于第一次构筑的企业来说,在下拉菜单选择是没有预先准备的知识库的,需要首先“创建知识库”。在这里我们演示导入本地文档场景,单击图上“+”号,知识库类型选择“文本文档”,跳转进入知识库创建页面。PS:后续“同步企业知识库”和“直连企业数据库”建设方式我们单独开贴指引。

 
⑤创建知识库,选择要导入的知识库文档,选择“打开”,单击“下一步”。这里要注意,单次最多 20 个文件,支持 doc、docx、txt、pdf 格式,单个文件大小须在 100 MB 以内。

 
⑥对已上传文档进行数据处理,这个过程就是将数据embedding的过程,即向量化过程。页面可选“分片策略”、“数据清洗”,页面右侧可查看文档解析后数据切片效果。实际构筑过程按需选择,最后页面单击“完成”。

同时可以选择高级设置,完成更丰富“解析策略”、“Embedding模型”、“知识增强方式”、“知识增强模型”等其他细化选择。
 
 
⑦我们看到,文档已经同步过来了,正在做解析,在“分片”、“问答对”、“段落概要”选项卡中,都能看到有明确数据生成。



 
⑧待所有分片解析完成后,我们再回到应用构建页面,知识库关联下拉菜单选择“demo-物料选型助手”,再选择“确定”。
 
⑨最后,在“生成回答”模块框内,选择deepseek模型,选择“确定”,这样就初步完成应用构建啦!


三、应用调优
    应用虽然构建完了,但是应用效果还是会存在比较大风险,可能会影响使用效果和用户体验。因此要进行应用评估和调优。
 
①点击“开始评估”,选择对应的评测集后,启动应用效果评估。这里的评测集是非常重要的,需要企业内部懂真实场景的业务人员一起参与准备,并且要尽可能覆盖业务的各个场景。
 
②若需临时新增测试数据集,在“测试数据集”选择最右侧“+”号,进入新增测试数据集页面,完成数据集新增。
 
③评估完成,我们看到准确率只有72%,我们选择“查看”,来具体看下是什么问题。我们看到有“检索不到”、“检索不全”、“回答不全”三类问题。
   
针对以上问题,根据指引,我们选择“优化”,系统会根据不同的问题,提供不同的优化建议。可以看到,当前主要存在的问题是“检索不到”,有11个问题。我们就先从它,开始优化。打开后,这里会展示出“优化指引”,有三条优化建议:
    第一条建议,是让我们确认知识库中是否包含这些答案。我们确认,文档中是包含的。
    第二条建议,是确认是否有近义词。我们看了下,确实存在专业词汇,这一条里的NC,经过查询,发现它对应的是电容的“标称容量”。我们把它添加到近义词库中。

 
第三条建议,建议我们调整检索节点配置,我们打开后发现有召回数量和召回阈值。分别是什么含义呢?举个例子,我想找到一个班级中成绩较好的一部分学生,如果我以90分作为标准,那可能有10个学生被选中,如果我以80分为标准,那可能得到20个。这里的分数值就对应我们AI应用中的召回阈值,被选中的数量就对应我们的召回数量。现在的召回阈值是0.8。那调整到多少呢?我们只要按优化建议,点击这里就可以自动把召回阈值调小。“确定”。这样就快速完成了配置调整。为了检查优化后的效果到底提升了没有,在此点击“重新评估”。这时,系统还会选择相同的评测数据集,提交了第二次评估任务。来对比一下这两次评估结果,很明显,配置调整后,应用的准确率从70%提升到了82%,问题数从11个降到了9个,继续按照指引,经过不断调优最终可达到理想效果,这里不做详细介绍。最后选择“发布”。


四、应用体验
回到AI应用平台主页,我们找到已经发布的“demo-物料选型助手”应用,开始体验。

 
体验一:我们输入“满足额定电压450并且标称容量8200的物料编号”。发现已经准确回复。

 
体验二:我们输入“找出尺寸为90*131的物料编号和尺寸图”,显示如下:
 
01-文本文档-物料.zip ( 1.26M ,下载次数:3)
物料测试集.zip ( 0.00M ,下载次数:2)
 
文档让我的问题处理变得简单了
选择标签:
更多意见:
手机号码:
如果未能解决您的问题,您可以使用 在线客服 寻求帮助
在线客服
文档让我的问题处理变得简单了