我要投稿

RAG重排哪家强？Cross-Encoder VS LLM Reranker

发布日期：2024-06-02 16:45:32 浏览次数： 3428 作者：PaperAgent

重排模型显著提升了信息检索（IR）系统的质量。传统重排方法依赖于手工定义的特征和特定的学习排序损失函数。随着BERT等模型的出现，交叉编码器（Cross-Encoder ）成为了标准的重排工具。近年，大型语言模型（LLMs）也被证明是有效的零样本（zero-shot）重排器。

因此，做出了一项深入研究：在重新排列有效的SPLADE检索器的背景下，比较了LLMs重排器（LLMs As ReRankers）与交叉编码器（Cross-Encoders）。在TREC深度学习数据集和诸如BEIR和LoTTE等跨领域数据集上进行了大规模评估，得出如下结论：

交叉编码重排器在领域内和领域外数据集上的行为略有不同。
与基于LLM的重排器相比，交叉编码器保持竞争力，并且效率更高。
Open LLM在性能上不如GPT-4，但在某些约束条件下（例如，小提示）仍然展现出良好的排序能力。【后半句的结论好像有点不对，有兴趣的小伙伴可以看下文的实验对比数据分析下】

五大维度详细实验评估

交叉编码器的领域内评估

最好的第一阶段模型通常会导致最好的最终性能，但是重排器缩小了三个检索器之间最初的差距。

对比了SPLADE模型的不同变体（SPLADE-v3, SPLADE-v3-DistilBERT, SPLADE-v3-Doc）在TREC深度学习数据集（DL19-DL23）上的表现。
分析了不同重排器（基于DeBERTa-v3和ELECTRA的模型）对这些SPLADE模型结果的影响。
重排不同数量文档（用top?表示）对模型性能的影响，发现增加重排的文档数量通常有利于提升性能，尤其是对于效果较差的模型。

各种SPLADE模型与各种重排器的领域内评估（nDCG@10）

交叉编码器的领域外评估

在BEIR和LoTTE数据集上评估了交叉编码器的性能。
发现在领域外设置中，DeBERTa-v3重排器一致性地优于基于ELECTRA的模型。
增加重排的文档数量同样在领域外数据集上对提升模型性能有积极作用。

跨领域评估（nDCG@10）

LLM作为重排器

评估了OpenAI的GPT-3.5 Turbo和GPT-4作为零样本重排器的性能，但成本限制了实验的规模。
GPT-4在某些数据集上的表现与DeBERTa-v3相当，甚至更好，尤其是在DL23和NovelEval数据集上。
对于GPT-4，滑动窗口机制可能不是必需的，文档截断机制通常能够提供与滑动窗口机制相当或更好的结果。
GPT-4与其他TREC参与者的结果以及RankZephyr模型的结果进行了比较，这些结果通常非常具有竞争力，但通常是通过结合多种模型获得的。

在SPLADE-v3（强基线）基础上，作为零样本重排器的基于GPT的模型评估——nDCG@10。

TREC-COVID数据集上的详细比较

进一步比较了DeBERTa-v3重排器与OpenAI LLMs以及开放模型的性能。

发现GPT-4在处理非常短的文档时表现非常好，即使文档被截断以适应提示长度。
标题对不同重排器的影响，发现标题对于LLMs特别有用，尤其是当文档较短时。

封闭模型与开放模型的比较：

使用开放LLMs（如SOLAR、Yi-34B-Chat和Llama-70B-chat）作为零样本重排器的结果。
开放模型的结果与OpenAI模型相比表现较差，但通过减少提示中的文本量（通过减小top?）可以获得有趣的结果。
原文的话，感觉有问题：Indeed, some models (e.g., Yi-34B-Chat) can achieve decent results (up to 82 nDCG@10), especially compared to GPT-3.5 Turbo, but k must be smaller (around 10-15).

在TREC-COVID上的交叉编码器、开放性和封闭性LLMs的比较（nDCG@10）。"|d|" 表示截断长度，"title" 表示该字段是否在评估中使用或不使用（x）。

重排管道（Reranking Pipeline）

LLMs可以用于从交叉编码器输出的结果中重新排序文档。使用LLMs进行重排可以提高最终效果。
基于LLM的重排器不一定非得替代交叉编码器，而是作为信息检索系统在有效性-效率谱系中的新“竞争者”。

使用LLMs的级联管道（在TREC DL23上的nDCG@10）

LLMs As Rerankers的Prompt模版

https://arxiv.org/pdf/2403.10407A Thorough Comparison of Cross-Encoders and LLMs for Reranking SPLADE

53AI，企业落地大模型首选服务商

产品：场景落地咨询+大模型应用平台+行业解决方案

承诺：免费场景POC验证，效果验证后签署服务协议。零风险落地应用大模型，已交付160+中大型企业

相关资讯

2025-04-27

一文了解：大模型 Agent 开发框架有哪些？它们的区别是什么？

2025-04-27

大模型应用系列：两万字解读MCP

2025-04-27

一篇文章说清楚什么是生成式AI、决策式AI、判别式AI

2025-04-27

字节Trae 大更新，5分钟看懂AI生成的“神秘代码块”

2025-04-27

字节新出的MCP应用DeepSearch，有点意思。

2025-04-27

用百度网盘MCP在Cursor中构建私人网盘助手，太香了叭（附搭建教程）

2025-04-27

实测免费DeepResearch！轻量版深夜上线，基于o4-mini，速度更快/重视脉络梳理

2025-04-27

Dify → 问题分类|条件分支

了解更多

160+中大型企业正在使用53AI

立即咨询预约演示

把握AI发展的机遇，共同探索、共同进步

2025-01-22

如何打造基于GenAI的员工服务机器人

2025-01-22

热点资讯

本地部署大模型？看这篇就够了，Ollama 部署和实战

2024-08-13

16个具有“联网搜索”功能的AI：总有一个适合你！

2024-06-13

Cursor 一个真正让程序员产生危机感的 AI 编程工具

2024-08-21

OpenAI o1与GPT4o的对比分析

2024-09-23

大模型｜“上下文长度”和“上下文窗口”不再傻傻分不清楚！

2024-07-31

一文带你了解大模型——智能体（Agent）

2024-05-28

50+个AI大模型在不同领域的应用案例

2024-08-04

全面对比dify、coze、streamlit、chainlit

2024-04-26

【深度】AI搜索产品深度分析-搜索原理和商业模式分析

2024-07-09

一文读懂OpenAI新发布o1系列大模型

2024-09-17

大家都在问

一文了解：大模型 Agent 开发框架有哪些？它们的区别是什么？

2025-04-27

为什么一定要做Agent智能体？

2025-04-25

除了MCP我们还有什么？

2025-04-24

LLM 推理引擎之争：Ollama or vLLM ?

2025-04-24

专题策划（下）| 如何实现大模型与行业的深度耦合？

2025-04-23

OpenAI：就你们也配做智能体？

2025-04-23

白话解析 DPO：如何让 AI 直接学习人类偏好？

2025-04-22

独家｜百度上线“心响”App，平替版Mauns来了？

2025-04-21

热门标签

内容创作大模型技术个人提效 langchain llamaindex 多模态技术 RAG技术智能客服知识图谱模型微调 RAGFlow coze Dify Fastgpt Bisheng Qanything AI+汽车 AI+金融 AI+工业 AI+培训 AI+SaaS 提示词框架提示词技巧 AI+电商 AI面试数字员工 ChatBI 知识管理开源大模型智能营销智能硬件智能化改造 AI+医疗 MaxKB