微信扫码
与创始人交个朋友
我要投稿
01
引子
检索增强生成(RAG)RAG 过程十分复杂,包含众多组成部分。我们如何确定现有的 RAG 方法及其最佳组合,以确定最佳的 RAG 实践?
02
RAG工作流程
图 1:检索-增强生成工作流程
典型的 RAG 工作流程包括以下几个中间处理步骤:
查询分类:确定输入查询是否需要检索
检索:有效获取和查询相关的文件
重新排序:根据相关性优化检索文件的顺序
重新打包:将检索到的文件整理成结构化形式
如上图所示,实施 RAG 还需要决定如何将文档分割成块,选择使用哪种嵌入式语义表示,选择合适的向量数据库以高效存储特征,以及找到微调 LLM 的有效方法。
03
查询分类
为什么需要查询分类?并非所有查询都需要加强检索,因为 LLM 具有一定的能力。虽然 RAG 可以提高准确性并减少幻觉,但频繁检索会增加响应时间。因此,我们首先需要对用户的查询进行分类,以确定是否需要检索。一般来说,当需要超出模型参数的知识时,才建议使用检索。
图 2:不同任务的检索要求分类
这一分类过程是通过训练分类器自动完成的。
图 3:查询分类器的结果
04
分块
在 LLM 中,将文档分成较小的块对于提高检索准确性和避免长度问题至关重要。一般有三个层次:
标记级分块法简单明了,但可能会分割句子,影响检索质量。
语义级分块使用 LLM 来确定断点,保留了上下文,但需要更多时间。
在此,我们采用了句子级分块技术,以在简洁性和语义保留之间取得平衡。分块过程将从以下几个方面进行评估。
嵌入模型的选择:如下图所示,LLM-Embedder 取得了与 BAAI/bge-large-en 相当的结果,但体积仅为其三分之一。因此,我们推荐选择 LLM-Embedder 来平衡性能和大小。
05
矢量数据库
对比观察,Milvus 在接受评估的数据库中脱颖而出,不仅符合所有基本标准,而且在性能上优于其他开源选项。
06
检索
不同检索方法的结果
07
重新排序
DLM 重新排序:这种方法使用深度语言模型(DLM)进行重新排序。这些模型经过微调,可将文档与查询的相关性分为 "真 "或 "假"。在微调过程中,使用查询和相关性注释文档对模型进行训练。在推理过程中,根据 "真 "标签的概率对文档进行排序。
08
重新打包
前向方法根据重新排序阶段的相关性得分,按降序重新打包文件。
反向方法按升序排列。
侧向选项受到《迷失在中间》的启发,当相关信息位于输入内容的开头或结尾时,效果最佳。
由于这些重新打包方法主要影响后续模块,因此将在下面的综合评述部分介绍对这些方法的评估。
09
总结
检索结果可能包含冗余或不必要的信息,这会妨碍 LLM 生成准确的回复。此外,冗长的提示可能会减慢推理过程。因此,总结检索文档的有效方法在 RAG 流程中至关重要。
提取式压缩器将文本分割成句子,并根据其重要性进行评分和排序。生成式压缩器综合多个文档中的信息,重新表述并生成连贯的摘要。这些任务可以是基于查询的,也可以是不基于查询的。
主要评估了三种方法:
如上图所示,建议使用 Recomp,因为它的表现非常出色。虽然 LongLLMLingua 的表现不佳,但它在没有经过这些实验数据集训练的情况下表现出了更好的泛化能力。因此,我们可以将其视为一种替代方法。
10
结论
在本文中我得到了以下启示:
53AI,企业落地应用大模型首选服务商
产品:大模型应用平台+智能体定制开发+落地咨询服务
承诺:先做场景POC验证,看到效果再签署服务协议。零风险落地应用大模型,已交付160+中大型企业
2024-07-18
2024-05-05
2024-07-09
2024-05-19
2024-07-09
2024-06-20
2024-07-07
2024-07-07
2024-07-08
2024-07-09
2024-11-25
2024-11-06
2024-11-06
2024-11-05
2024-11-04
2024-10-27
2024-10-25
2024-10-21