我要投稿

为什么RAG一定需要Rerank？

发布日期：2025-03-13 02:10:12 浏览次数： 1757 作者：三黄工作室

今天和大家讲一下检索增强生成（RAG）里面的Rerank。

RAG给人带来无限期待，尤其是在结合了LLM之后，大家都想着：这下终于能搞定那些复杂的问答任务了吧！但现实往往是骨感的。很多人开发完一个RAG流程后都会疑惑：为什么它的效果没有达到预期呢？

其实，和大多数工具一样，RAG用起来简单，但想要精通却很难。事实上，RAG不只是把文档存入向量数据库，然后在上面添加一个LLM那么简单。那样做 有可能 行得通，但并不总是有效。

所以今天这篇文章，咱们就聊聊当现成的RAG不起作用时该怎么办。如果你经常遇到RAG表现欠佳的情况，这里有一个最容易、最快实施的解决方案——重排序 Rerank。

召回率与上下文窗口

当然，在介绍解决方案之前，咱们先聊聊单纯RAG存在的问题。使用RAG时，我们要对许多文本文档进行 语义搜索 ——这些文档可能从数万篇到数百亿篇不等。

为了确保大规模搜索时的速度够快，我们通常会使用向量搜索。也就是说，把文本转换成向量，将它们都放入一个向量空间，然后使用像余弦相似度这样的相似性度量来比较它们与查询向量的接近程度。

要让向量搜索起作用，我们需要向量。这些向量本质上是将某些文本背后的 “含义” 压缩成（通常是）768维或1024维的向量。由于我们把这些信息压缩成了单个向量，所以会有一些信息丢失。

因为这种信息丢失，我们经常会发现，例如，向量搜索返回的前三篇文档可能会遗漏相关信息。相关信息可能会在我们设置的 top_k 阈值之外被检索到。

如果位置靠后的相关信息能帮助我们的LLM给出更好的回复，那该怎么办呢？最简单的方法就是增加返回的文档数量（提高 top_k 值），然后把这些文档都传给LLM。

这里我们衡量的指标是 召回率 ，意思是 “我们检索到了多少相关文档” 。召回率不考虑检索到的文档总数，所以我们可以通过返回所有文档来 “操纵” 这个指标，从而得到完美的召回率。

可惜的是，我们不能返回所有文档。LLM对于能接收的文本量是有限制的，我们把这个限制称为 上下文窗口 。有些LLM的上下文窗口很大，比如Anthropic的Claude，它的上下文窗口有100K个Token 。有了这么大的窗口，我们可以放入几十页的文本。

那么，我们能不能返回很多文档（虽然不能是全部），然后 “塞满” 上下文窗口来提高召回率呢？

答案还是不行。我们不能使用上下文填充的方法，因为这会降低LLM的 召回性能 。注意，这里说的是LLM的召回率，和我们之前讨论的检索召回率是不一样的。

当在上下文窗口中间存储信息时，与一开始就不提供该信息相比，LLM回忆该信息的能力会变差

研究表明，随着我们在上下文窗口中放入更多的标记，LLM召回率会降低。当我们塞满上下文窗口时，LLM也不太可能遵循指令，所以上下文填充不是个好主意。

那么问题来了：我们可以增加向量数据库返回的文档数量来提高检索召回率，但如果把这些文档都传给LLM，就会损害LLM的召回率。怎么办？

解决这个问题的办法是，通过检索大量文档来最大化检索召回率，然后通过 最小化 传给LLM的文档数量来最大化LLM召回率。要做到这一点，我们需要对检索到的文档重新排序，只保留对LLM最相关的文档，而实现这个操作，我们就要用到 Rerank 。

Rerank的强大之处

重排序模型，也被称为 交叉编码器 ，是一种模型，给定一个查询和文档对，它会输出一个相似度分数。我们用这个分数根据文档与查询的相关性对文档进行重新排序。

我们都知道现在搜索工程师们在两阶段检索系统中使用Rerank已经有 很长时间 了。在这些两阶段系统中，第一阶段的模型（一个嵌入模型/检索器）从更大的数据集中检索出一组相关文档。然后，第二阶段的模型（Rerank）用来对第一阶段模型检索到的那些文档进行重新排序。

我们采用两阶段的方式，是因为从大数据集中检索出一小部分文档比重新排序一大部分文档要快得多。简单来说，Rerank运行速度慢，而检索器运行 速度快 。

为什么要用Rerank？

如果Rerank速度这么慢，那为什么还要用它们呢？答案是，Rerank比嵌入模型要准确得多。

双编码器准确性较差的原因在于，双编码器必须把一个文档所有可能的含义压缩成一个单一向量，这就意味着我们会丢失信息。此外，双编码器在查询方面没有上下文信息，因为在收到查询之前，我们并不知道查询内容（我们在用户查询之前就创建了嵌入）。

另一方面，Rerank可以将原始信息直接输入到模型中计算，这意味着信息丢失更少。因为我们是在用户查询时运行Rerank，所以还有一个额外的好处，那就是可以根据用户查询来分析文档的特定含义，而不是试图生成一个通用的、平均的含义。

Rerank避免了双编码器的信息丢失问题，但它们也有另一个代价—— 时间。

一个双编码器模型将文档或查询的含义压缩成一个单一向量。请注意，双编码器在用户查询时，以与处理文档相同的方式处理我们的查询。

假设你有4000万条记录，如果我们在V100 GPU上使用像BERT这样的小型重排序模型，那么为了返回一个查询结果，我们可能要等上50多个小时。而使用编码器模型和向量搜索，同样的操作可以在不到100毫秒内完成。

53AI，企业落地大模型首选服务商

产品：场景落地咨询+大模型应用平台+行业解决方案

承诺：免费场景POC验证，效果验证后签署服务协议。零风险落地应用大模型，已交付160+中大型企业

相关资讯

2025-04-19

基于Embedding分块 - 文本分块（Text Splitting），RAG不可缺失的重要环节

2025-04-19

RAG升级-基于知识图谱+deepseek打造强大的个人知识库问答机器人

2025-04-19

RAG vs. CAG vs. Fine-Tuning：如何为你的大语言模型选择最合适的“脑力升级”？

2025-04-19

低代码 RAG 只是信息搬运工，Graph RAG 让 AI 具备垂直深度推理能力！

2025-04-18

微软PIKE-RAG全面解析：解锁工业级应用领域知识理解与推理

2025-04-18

AI 记忆不等于 RAG：对话式 AI 为何需要超越检索增强

2025-04-18

Firecrawl：颠覆传统爬虫的AI黑科技，如何为LLM时代赋能

2025-04-18

什么是RAG与为什么要RAG？

了解更多

160+中大型企业正在使用53AI

立即咨询预约演示

把握AI发展的机遇，共同探索、共同进步

2025-01-22

如何打造基于GenAI的员工服务机器人

2025-01-22

热点资讯

全网最全国内Agent平台深度测评：扣子、Dify、FastGPT，谁是你的Agent开发首选？

2024-10-27

一文彻底搞懂大模型 - RAG（检索、增强、生成）

2024-09-04

GraphRAG+Ollama 本地部署，保姆教程，踩坑无数，闭坑大法

2024-07-18

RAGFlow：基于OCR和文档解析的下一代 RAG 引擎

2024-05-05

RAG框架，都在这了!

2024-06-20

RAG 高效应用指南：Embedding 模型的选择和微调

2024-06-13

深入解析 Graph RAG：提升语言模型问答能力的创新策略

2024-07-09

微软开源的GraphRAG解读

2024-07-09

基于Llama 3 构建RAG语音助手：将本地 RAG 与 Qdrant、Whisper 和 LangChain 集成

2024-05-19

Prompt工程师必备：复旦重磅 | 最佳RAG实践长什么样的？

2024-07-07

大家都在问

RAG vs. CAG vs. Fine-Tuning：如何为你的大语言模型选择最合适的“脑力升级”？

2025-04-19

什么是RAG与为什么要RAG？

2025-04-18

真实场景下落地RAG的十条建议及RAG中如何提升个性化？

2025-04-16

RAG系统中的“幕后英雄”：重排器如何提升信息检索的精准度？

2025-04-14

Dify 基础篇| 深度解读 RAG：为什么需要混合检索？

2025-04-13

OlmOCR如何成为搭建RAG 知识库的"智能中枢"？

2025-04-11

构建Agentic RAG 系统的方法有哪些？

2025-04-09

【AI知识点】什么是Agentic RAG？

2025-04-07

热门标签

内容创作大模型技术个人提效 langchain llamaindex 多模态技术 RAG技术智能客服知识图谱模型微调 RAGFlow coze Dify Fastgpt Bisheng Qanything AI+汽车 AI+金融 AI+工业 AI+培训 AI+SaaS 提示词框架提示词技巧 AI+电商 AI面试数字员工 ChatBI 知识管理开源大模型智能营销智能硬件智能化改造 AI+医疗 MaxKB