AI知识库

53AI知识库

学习大模型的前沿技术与行业应用场景


卡内基梅隆:什么样的RAG配置是最佳配置
发布日期:2024-04-15 07:59:59 浏览次数: 1784


RAG 数据库问答

摘要

RAG技术通过为诸如DBQA这类任务补充背景信息,极大提升了LM的表现力,但其效能却与配置紧密相关,于是产生了一个核心问题——究竟怎样的RAG配置最为理想?为了解答这个问题,我们创新提出了RAGGED框架,用于深入分析并优化RAG系统。

框架

作者为了评价什么样的RAG配置最为合理,针对RAG的不同部分进行了测试和评估。比如下图,作者把RAG系统划分为三部分:Retriever、Documents、Reader。

针对以下三个方面的参数变化,来探讨最好的RAG组合。

• RAG 系统组件,例如:检索器Retriever(例如,BM25、ColBERT)、阅读器家族Reader(例如,LLaMa2、FlanT5)和最大输入长度。• 检索到的段落数量,表示为 n。我们将 n 从 1 变化到 100,尽管作者发现在 n = 30 之前最具洞察力的行为变化。• 要检查的数据切片。例如,我们检查前 n 个检索到的段落包含金标准段落和不包含金标准段落的切片。

数据集

  • • Natural Questions:我们选择了自然问题(NQ)数据集(Kwiatkowski等人,2019年),以检验模型在最通用的开放域、单跳问题上的表现。NQ问题是Google上的真实用户搜索查询。我们采用了该数据集的KILT版本(Petroni等人,2021年),该版本为每个示例提供至少一个金标准相关段落和一个简短答案。

  • • HotpotQA:我们选择了HotpotQA(Yang等人,2018年),它提供了具有挑战性的多跳问题。每个问题需要在至少两个段落上进行推理才能回答。虽然与NQ数据集保持相同的维基百科领域,但HotpotQA使得可以比较模型对多个证据片段的推理能力。

  • • BioASQ:我们选择了BioASQ的任务11B(Krithara等人,2023年),其中包含生物医学问题,作为特殊领域问题的代表。我们的评估数据集是BioASQ任务11B的训练集和金标准丰富集的汇编。BioASQ还提出了具有挑战性的问题类型,如列表和是/否问题。

结果


                                     


53AI,企业落地应用大模型首选服务商

产品:大模型应用平台+智能体定制开发+落地咨询服务

承诺:先做场景POC验证,看到效果再签署服务协议。零风险落地应用大模型,已交付160+中大型企业

联系我们

售前咨询
186 6662 7370
预约演示
185 8882 0121

微信扫码

与创始人交个朋友

回到顶部

 
扫码咨询