我要投稿

RAG应用要如何吃到大模型长上下文的红利？-LongRAG

发布日期：2024-07-14 01:36:13 浏览次数： 2339

作者：NLP前沿

微信搜一搜，关注“NLP前沿”

碎碎念

去年底的时候，笔者写过，与其在RAG系统上雕花，可以重新思考一下，自己的业务场景是否非RAG不可吗？随着去年大模型的蓬勃发展，长度外推、更长的上下文模型，更厉害的中文底座大模型，都可以让整个系统的压力往生成部分上迁移。

后来笔者造了一个词，文档片段化。对于常规的pdf问答档问答，基本上都能使用单一的大模型覆盖到了。但是对于知识库，文档库的问答，似乎RAG还是必不可少的。但是如果生成模型能力更强了，那与其在思考如何去更好的解析文档结构，去划分块大小，不如放大维度，把更大粒度的文本，如文档，当作传统的块，可以省掉很多细碎的工作。

回归主题，RAG场景如何吃到大模型长上下文的红利？本文主要是分享新出的一个研究工作LongRAG，为了解决检索器和阅读器之间工作量不平衡的问题，文中提出了一个新的框架，称为 LongRAG，它包括一个“长检索器” （long retriever）和一个“长阅读器”(long reader - llm)。文档块变长很显然，long retriever应该如何设计才能保证召回效果（正确答案的块相比与短块包含了更多的噪声），这个是本文的核心内容。

LongRAG 将整个维基百科处理成4K-token的chunks，这比以前的chunk长度长了30倍。通过增加chunk大小，显著减少了总chunk数，从22M减少到600K。使用现有的长上下文大型语言模型（LLM）进行答案提取，在NQ数据集上，LongRAG将答案召回率@1从52%提高到71%，在HotpotQA数据集上，将答案召回率@2从47%提高到72%。LongRAG在不需要任何训练的情况下，取得了与经过微调的RAG模型相当的结果。

文章地址如下：

https://arxiv.org/html/2406.15319v1

框架对比图如下，相比于vanilla rag的模式（下图左），longrag采样更大的块大小（下图右），所以理论上上对long retriever上应该需要一些特别的操作。

long retriever

传统的 RAG 中，检索块 g 通常是从文档 d 中分离出来的一小段段落，包含数百个标记。在这里，g 可能与整个文档甚至多个文档一样长，所以像传统那样算相似度可能就会有比较多的噪声干扰了。

因此首先能合并在一起的文档那不能不太相关联，不然召回之后作为模型的上下文噪声太大了。所以第一步需要先进行一个文档分组，这个算法类似于以前的那种流式聚类，还是什么聚类，名词记不太清了。文档是否相关使用的文档的连边，类似于那种有结构层级的知识库的大目录信息。细看就是如下图，很好理解：

然后计算相似度，传统那样query-passage计算比较有难度，所以使用近似，算query和passage中的小块的最大相似度，这个小块的粒度是个实验维度，可能是段落，也可能是文档级，也可能是上面的文档组。

到这里，核心的算法原理部分基本就结束了，对了，还有一个超参数，对于小的文档块召回为了提高召回率，一般用比较大的k。但是这里不行了，论文中设置的k为4到8。

核心的实验

下图为，使用段落、文档、文档组召回，真实答案的召回率（最右边一行），召回数量更多，召回率肯定更高，这个没什么好说的。召回块越大，需要达到接近的召回率的top k越少。

最后

整体的结论在前面提过了，很优秀。块长度变长，信息包含的更多，可能很难用一个向量来表达完整的内容，所以longrag的更多的探索会发生在如何有效且精准的找到包含答案片段的大块。本文中使用的近似策略以及文档组的构建都是在这个领域，目前很少见的探索尝试，并提供了一些实验论证。

对于RAG整个框架的更多技术，PaperAgent团队RAG专栏进行过归纳总结：包含高级RAG之36技 & 一些实战

RAG全景图：从RAG启蒙到高级RAG之36技，再到终章Agentic RAG！

专栏试看：https://docs.qq.com/aio/DR0dBWm9WYlJNckxw?p=dIxns4m9ounpDQ9pRCV7zu

-END-

右下角，帮忙点点+

53AI，企业落地大模型首选服务商

产品：场景落地咨询+大模型应用平台+行业解决方案

承诺：免费POC验证，效果达标后再合作。零风险落地应用大模型，已交付160+中大型企业

相关资讯

2025-10-16

基于大模型的智能问答场景解决方案——RAG提升召回率的关键

2025-10-16

用合成数据评测 RAG 系统：一份可直接上手的 DeepEval 实操指南

2025-10-16

2025 年 RAG 最佳 Reranker 模型

2025-10-16

HiRAG问答流程深入分析

2025-10-13

LightRAG × Yuxi-Know——「知识检索 + 知识图谱」实践案例

2025-10-13

PG用户福音｜一次性搞定RAG完整数据库套装

2025-10-12

任何格式RAG数据实现秒级转换！彻底解决RAG系统中最令人头疼的数据准备环节

2025-10-12

总结了 13 个顶级 RAG 技术

了解更多

160+中大型企业正在使用53AI

立即咨询预约演示

把握AI发展的机遇，共同探索、共同进步

2025-01-22

如何打造基于GenAI的员工服务机器人

2025-01-22

热点资讯

RAG彻底爆了！一文掌握其效果优化的架构设计及核心要点

2025-09-15

响应速度提升300%、检索准确率90%：RAG如何让企业知识“活”起来赚钱？

2025-08-05

从原理到落地：RAG 技术全解析，手把手教你搭建专属知识库

2025-09-02

优化 GraphRAG：LightRAG的三大改进

2025-08-18

RAG系统全景：架构详解与落地实践指南

2025-08-25

高质量AI知识库应用的前提：选对向量数据库

2025-08-25

一文搞懂大模型：何为深入理解RAG？

2025-08-25

RAG实战：借助RAGFlow做一个员工智能助理

2025-07-21

DeepMind爆火论文：向量嵌入模型存在数学上限，Scaling laws放缓实锤？

2025-09-03

别再往AI的知识库塞奇怪的东西了，什么样的知识适合作为RAG知识库？

2025-08-20

大家都在问

Embedding与Rerank：90%的RAG系统都搞错了！为什么单靠向量检索会毁了你的AI应用？

2025-10-04

存算一体破局向量检索瓶颈，IBM放出王炸VSM：性能飙升100倍，能效碾压GPU千倍，RAG要变天？

2025-09-30

您应该为您的 RAG 系统使用哪种分块技术？

2025-09-10

关于多模态应用的几个疑问，以及多模态应该怎么应用于RAG？

2025-09-10

DeepMind爆火论文：向量嵌入模型存在数学上限，Scaling laws放缓实锤？

2025-09-03

RAG检索后如何应用更有效？

2025-08-28

一文搞懂大模型：何为深入理解RAG？

2025-08-25

别再往AI的知识库塞奇怪的东西了，什么样的知识适合作为RAG知识库？

2025-08-20

热门标签

内容创作大模型技术个人提效 langchain llamaindex 多模态技术 RAG技术智能客服知识图谱模型微调 RAGFlow coze Dify Fastgpt Bisheng Qanything AI+汽车 AI+金融 AI+工业 AI+培训 AI+SaaS 提示词框架提示词技巧 AI+电商 AI面试数字员工 ChatBI 知识管理开源大模型智能营销智能硬件智能化改造 AI+医疗 MaxKB