我要投稿

卡内基梅隆：什么样的RAG配置是最佳配置

发布日期：2024-04-15 07:59:59 浏览次数： 2096 作者：大语言模型论文跟踪

RAG 数据库问答

摘要

RAG技术通过为诸如DBQA这类任务补充背景信息，极大提升了LM的表现力，但其效能却与配置紧密相关，于是产生了一个核心问题——究竟怎样的RAG配置最为理想？为了解答这个问题，我们创新提出了RAGGED框架，用于深入分析并优化RAG系统。

框架

作者为了评价什么样的RAG配置最为合理，针对RAG的不同部分进行了测试和评估。比如下图，作者把RAG系统划分为三部分：Retriever、Documents、Reader。

null

针对以下三个方面的参数变化，来探讨最好的RAG组合。

• RAG 系统组件，例如：检索器Retriever（例如，BM25、ColBERT）、阅读器家族Reader（例如，LLaMa2、FlanT5）和最大输入长度。• 检索到的段落数量，表示为 n。我们将 n 从 1 变化到 100，尽管作者发现在 n = 30 之前最具洞察力的行为变化。• 要检查的数据切片。例如，我们检查前 n 个检索到的段落包含金标准段落和不包含金标准段落的切片。

数据集

• Natural Questions：我们选择了自然问题（NQ）数据集（Kwiatkowski等人，2019年），以检验模型在最通用的开放域、单跳问题上的表现。NQ问题是Google上的真实用户搜索查询。我们采用了该数据集的KILT版本（Petroni等人，2021年），该版本为每个示例提供至少一个金标准相关段落和一个简短答案。
• HotpotQA：我们选择了HotpotQA（Yang等人，2018年），它提供了具有挑战性的多跳问题。每个问题需要在至少两个段落上进行推理才能回答。虽然与NQ数据集保持相同的维基百科领域，但HotpotQA使得可以比较模型对多个证据片段的推理能力。
• BioASQ：我们选择了BioASQ的任务11B（Krithara等人，2023年），其中包含生物医学问题，作为特殊领域问题的代表。我们的评估数据集是BioASQ任务11B的训练集和金标准丰富集的汇编。BioASQ还提出了具有挑战性的问题类型，如列表和是/否问题。