微信扫码
与创始人交个朋友
我要投稿
今天分享一个英伟达的最新研究,属于是在长上下文阶段为RAG的一次辩护。因为随着长文本LLM的出现,这些模型能处理更长的文本序列,RAG似乎变得不那么重要了。
In Defense of RAG in the Era of Long-Context Language Models
检索增强生成(RAG)克服了早期LLMs中有限的上下文限制,过去一直是基于上下文的答案生成的可靠解决方案。最近,长上下文LLMs的出现使得模型能够包含更长的文本序列,这使得 RAG 的吸引力下降。最近的研究表明,长上下文LLMs在长上下文应用中显着优于 RAG。与现有的偏爱长语境LLM而不是 RAG 的研究不同,我们认为LLMs中的极长语境会导致对相关信息的关注度降低,并导致答案质量的潜在下降。本文重新审视长上下文答案生成中的 RAG。我们提出了一种顺序保留检索增强生成(OP-RAG)机制,该机制显着提高了 RAG 在长上下文问答应用中的性能。使用OP-RAG,随着检索块数量的增加,答案质量先上升,然后下降,形成倒U形曲线。与将整个上下文作为输入的长上下文LLM相比,OP-RAG 可以用更少的标记获得更高的答案质量。对公共基准的大量实验证明了我们的 OP-RAG 的优越性。
OP-RAG是个什么东西呢?
传统的RAG,检索与查询最相关的前k个文本块。按照相似度排序之后,按照一定的顺序放在大模型的prompt中。
与传统RAG将检索到的文本块按相关性降序排列不同,OP-RAG保持了这些文本块在原文中的顺序。也就是说,如果一个文本块在原文中出现在另一个文本块之前,那么在处理答案时,它也会被放在前面。
论文里做了一系列的实验,结果表明,OP-RAG在长文本问答任务中的表现比传统的RAG和长文本LLM都要好。特别是在使用Llama3.1-70B模型时,OP-RAG在只使用16K tokens的情况下,就达到了44.43的F1分数,而没有使用RAG的Llama3.1-70B,即使用了128K tokens,也只得到了34.32的F1分数。
53AI,企业落地应用大模型首选服务商
产品:大模型应用平台+智能体定制开发+落地咨询服务
承诺:先做场景POC验证,看到效果再签署服务协议。零风险落地应用大模型,已交付160+中大型企业
2024-12-24
除了混合搜索,RAG 还需要哪些基础设施能力?
2024-12-24
万字长文梳理 2024 年的 RAG
2024-12-24
面向医疗场景的大模型 RAG 检索增强解决方案
2024-12-23
一文详谈20多种RAG优化方法
2024-12-23
深入RAG工作流:检索生成的最佳实践
2024-12-23
o1 pro “碾压式”洞察:世界顶尖免疫学专家被机器深度分析“惊醒”
2024-12-23
使用 Lang Chain 和 Lang Graph 构建多代理 RAG :分步指南 + Gemma 2
2024-12-23
RAG评估框架:RAG Triad框架及其实战
2024-07-18
2024-05-05
2024-06-20
2024-09-04
2024-05-19
2024-07-09
2024-07-09
2024-07-07
2024-07-07
2024-06-13