微信扫码
添加专属顾问
我要投稿
RAG
数据库问答
RAG技术通过为诸如DBQA这类任务补充背景信息,极大提升了LM的表现力,但其效能却与配置紧密相关,于是产生了一个核心问题——究竟怎样的RAG配置最为理想?为了解答这个问题,我们创新提出了RAGGED框架,用于深入分析并优化RAG系统。
作者为了评价什么样的RAG配置最为合理,针对RAG的不同部分进行了测试和评估。比如下图,作者把RAG系统划分为三部分:Retriever、Documents、Reader。
针对以下三个方面的参数变化,来探讨最好的RAG组合。
• RAG 系统组件,例如:检索器Retriever(例如,BM25、ColBERT)、阅读器家族Reader(例如,LLaMa2、FlanT5)和最大输入长度。• 检索到的段落数量,表示为 n。我们将 n 从 1 变化到 100,尽管作者发现在 n = 30 之前最具洞察力的行为变化。• 要检查的数据切片。例如,我们检查前 n 个检索到的段落包含金标准段落和不包含金标准段落的切片。
• Natural Questions:我们选择了自然问题(NQ)数据集(Kwiatkowski等人,2019年),以检验模型在最通用的开放域、单跳问题上的表现。NQ问题是Google上的真实用户搜索查询。我们采用了该数据集的KILT版本(Petroni等人,2021年),该版本为每个示例提供至少一个金标准相关段落和一个简短答案。
• HotpotQA:我们选择了HotpotQA(Yang等人,2018年),它提供了具有挑战性的多跳问题。每个问题需要在至少两个段落上进行推理才能回答。虽然与NQ数据集保持相同的维基百科领域,但HotpotQA使得可以比较模型对多个证据片段的推理能力。
• BioASQ:我们选择了BioASQ的任务11B(Krithara等人,2023年),其中包含生物医学问题,作为特殊领域问题的代表。我们的评估数据集是BioASQ任务11B的训练集和金标准丰富集的汇编。BioASQ还提出了具有挑战性的问题类型,如列表和是/否问题。
53AI,企业落地大模型首选服务商
产品:场景落地咨询+大模型应用平台+行业解决方案
承诺:免费场景POC验证,效果验证后签署服务协议。零风险落地应用大模型,已交付160+中大型企业
2025-02-01
2025-01-01
2024-08-13
2025-02-04
2024-04-25
2024-07-25
2024-06-13
2024-09-23
2024-04-26
2024-08-21