我要投稿

RAG重排哪家强？Cross-Encoder VS LLM Reranker

发布日期：2024-06-02 16:45:32 浏览次数： 2071

重排模型显著提升了信息检索（IR）系统的质量。传统重排方法依赖于手工定义的特征和特定的学习排序损失函数。随着BERT等模型的出现，交叉编码器（Cross-Encoder ）成为了标准的重排工具。近年，大型语言模型（LLMs）也被证明是有效的零样本（zero-shot）重排器。

因此，做出了一项深入研究：在重新排列有效的SPLADE检索器的背景下，比较了LLMs重排器（LLMs As ReRankers）与交叉编码器（Cross-Encoders）。在TREC深度学习数据集和诸如BEIR和LoTTE等跨领域数据集上进行了大规模评估，得出如下结论：

交叉编码重排器在领域内和领域外数据集上的行为略有不同。
与基于LLM的重排器相比，交叉编码器保持竞争力，并且效率更高。
Open LLM在性能上不如GPT-4，但在某些约束条件下（例如，小提示）仍然展现出良好的排序能力。【后半句的结论好像有点不对，有兴趣的小伙伴可以看下文的实验对比数据分析下】

五大维度详细实验评估

交叉编码器的领域内评估

最好的第一阶段模型通常会导致最好的最终性能，但是重排器缩小了三个检索器之间最初的差距。

对比了SPLADE模型的不同变体（SPLADE-v3, SPLADE-v3-DistilBERT, SPLADE-v3-Doc）在TREC深度学习数据集（DL19-DL23）上的表现。
分析了不同重排器（基于DeBERTa-v3和ELECTRA的模型）对这些SPLADE模型结果的影响。
重排不同数量文档（用top?表示）对模型性能的影响，发现增加重排的文档数量通常有利于提升性能，尤其是对于效果较差的模型。

各种SPLADE模型与各种重排器的领域内评估（nDCG@10）

交叉编码器的领域外评估

在BEIR和LoTTE数据集上评估了交叉编码器的性能。
发现在领域外设置中，DeBERTa-v3重排器一致性地优于基于ELECTRA的模型。
增加重排的文档数量同样在领域外数据集上对提升模型性能有积极作用。

跨领域评估（nDCG@10）

LLM作为重排器

评估了OpenAI的GPT-3.5 Turbo和GPT-4作为零样本重排器的性能，但成本限制了实验的规模。
GPT-4在某些数据集上的表现与DeBERTa-v3相当，甚至更好，尤其是在DL23和NovelEval数据集上。
对于GPT-4，滑动窗口机制可能不是必需的，文档截断机制通常能够提供与滑动窗口机制相当或更好的结果。
GPT-4与其他TREC参与者的结果以及RankZephyr模型的结果进行了比较，这些结果通常非常具有竞争力，但通常是通过结合多种模型获得的。

在SPLADE-v3（强基线）基础上，作为零样本重排器的基于GPT的模型评估——nDCG@10。

TREC-COVID数据集上的详细比较

进一步比较了DeBERTa-v3重排器与OpenAI LLMs以及开放模型的性能。

发现GPT-4在处理非常短的文档时表现非常好，即使文档被截断以适应提示长度。
标题对不同重排器的影响，发现标题对于LLMs特别有用，尤其是当文档较短时。

封闭模型与开放模型的比较：

使用开放LLMs（如SOLAR、Yi-34B-Chat和Llama-70B-chat）作为零样本重排器的结果。
开放模型的结果与OpenAI模型相比表现较差，但通过减少提示中的文本量（通过减小top?）可以获得有趣的结果。
原文的话，感觉有问题：Indeed, some models (e.g., Yi-34B-Chat) can achieve decent results (up to 82 nDCG@10), especially compared to GPT-3.5 Turbo, but k must be smaller (around 10-15).

在TREC-COVID上的交叉编码器、开放性和封闭性LLMs的比较（nDCG@10）。"|d|" 表示截断长度，"title" 表示该字段是否在评估中使用或不使用（x）。

重排管道（Reranking Pipeline）

LLMs可以用于从交叉编码器输出的结果中重新排序文档。使用LLMs进行重排可以提高最终效果。
基于LLM的重排器不一定非得替代交叉编码器，而是作为信息检索系统在有效性-效率谱系中的新“竞争者”。

使用LLMs的级联管道（在TREC DL23上的nDCG@10）

LLMs As Rerankers的Prompt模版

https://arxiv.org/pdf/2403.10407A Thorough Comparison of Cross-Encoders and LLMs for Reranking SPLADE

160+中大型企业正在使用53AI

立即咨询预约演示

百度智能云邀53AI：共创AI新纪元，启航智能新时代

2024-05-27

钉钉恒星计划：53AI与百余位企业家及钉钉生态伙伴，共议“AI 浪潮下的新机遇”

2024-05-22

热点资讯

最强 GPT 免费使用！GPT4O 开启多模态新时代！

2024-05-14

全民AI时代：手把手教你用Ollama & AnythingLLM搭建AI知识库，无需编程，跟着做就行！

2024-04-26

【开源看AI】4.9K star！Khoj：完美融合本地文档和在线网页的AI第二大脑

2024-05-22

OLLama详细的 api 介绍不完全指南 python 直接调用 OLLama api 翻译助手演示

2024-04-12

GraphRAG+Ollama 本地部署，保姆教程，踩坑无数，闭坑大法

2024-07-18

万字长文解析：大模型需要怎样的硬件算力

2024-03-30

微调神器LLaMA-Factory官方保姆级教程来了，从环境搭建到模型训练评估全覆盖

2024-05-10

开源项目Composio：突破 AI 智能体开发的边界

2024-08-13

更改ollama模型存储路径

2024-04-25

全面对比dify、coze、streamlit、chainlit

2024-04-26

大家都在问

疯狂星期四Qwen2.5开源，通义成了最Open的AI?

2024-09-20

在长上下文LLM的时代，RAG是否仍然必要？

2024-09-20

【AI赋能】揭秘大模型微调：如何让机器智能跃升一个台阶？

2024-09-19

从案例分析到客户沟通：AI提示词如何优化律师工作流程？

2024-09-19

o1 能带我们走进 AGI 吗？

2024-09-19

如何微调（Fine-tuning）大语言模型？

2024-09-18

AI软件必须用GPU么？

2024-09-18

ChatGPT有三个快捷指令和三个模式，你知道吗？

2024-09-17

开箱即用的企业大模型应用平台

工作+AI

业务+AI

AIx业务

大模型咨询

大模型定制

五大维度详细实验评估

交叉编码器的领域内评估

相关资讯

160+中大型企业正在使用53AI

百度智能云邀53AI：共创AI新纪元，启航智能新时代

钉钉恒星计划：53AI与百余位企业家及钉钉生态伙伴，共议“AI 浪潮下的新机遇”

热点资讯

最强 GPT 免费使用！GPT4O 开启多模态新时代！

全民AI时代：手把手教你用Ollama & AnythingLLM搭建AI知识库，无需编程，跟着做就行！

【开源看AI】4.9K star！Khoj：完美融合本地文档和在线网页的AI第二大脑

OLLama详细的 api 介绍不完全指南 python 直接调用 OLLama api 翻译助手演示

GraphRAG+Ollama 本地部署，保姆教程，踩坑无数，闭坑大法

万字长文解析：大模型需要怎样的硬件算力

微调神器LLaMA-Factory官方保姆级教程来了，从环境搭建到模型训练评估全覆盖

开源项目Composio：突破 AI 智能体开发的边界

更改ollama模型存储路径

全面对比dify、coze、streamlit、chainlit

大家都在问

疯狂星期四Qwen2.5开源，通义成了最Open的AI?

在长上下文LLM的时代，RAG是否仍然必要？

【AI赋能】揭秘大模型微调：如何让机器智能跃升一个台阶？

从案例分析到客户沟通：AI提示词如何优化律师工作流程？

o1 能带我们走进 AGI 吗？

如何微调（Fine-tuning）大语言模型？

AI软件必须用GPU么？

ChatGPT有三个快捷指令和三个模式，你知道吗？

热门标签

开箱即用的企业大模型应用平台

工作+AI

业务+AI

AIx业务

大模型咨询

大模型定制

五大维度详细实验评估

交叉编码器的领域内评估

相关资讯

160+中大型企业正在使用53AI

百度智能云邀53AI：共创AI新纪元，启航智能新时代

钉钉恒星计划：53AI与百余位企业家及钉钉生态伙伴，共议“AI 浪潮下的新机遇”

热点资讯

最强 GPT 免费使用！GPT4O 开启多模态新时代！

全民AI时代：手把手教你用Ollama & AnythingLLM搭建AI知识库，无需编程，跟着做就行！

【开源看AI】4.9K star！Khoj：完美融合本地文档和在线网页的AI第二大脑

OLLama详细的 api 介绍 不完全指南 python 直接调用 OLLama api 翻译助手演示

GraphRAG+Ollama 本地部署，保姆教程，踩坑无数，闭坑大法

万字长文解析：大模型需要怎样的硬件算力

微调神器LLaMA-Factory官方保姆级教程来了，从环境搭建到模型训练评估全覆盖

开源项目Composio：突破 AI 智能体开发的边界

更改ollama模型存储路径

全面对比dify、coze、streamlit、chainlit

大家都在问

疯狂星期四Qwen2.5开源，通义成了最Open的AI?

在长上下文LLM的时代，RAG是否仍然必要？

【AI赋能】揭秘大模型微调：如何让机器智能跃升一个台阶？

从案例分析到客户沟通：AI提示词如何优化律师工作流程？

o1 能带我们走进 AGI 吗？

如何微调（Fine-tuning）大语言模型？

AI软件必须用GPU么？

ChatGPT有三个快捷指令和三个模式，你知道吗？

热门标签

OLLama详细的 api 介绍不完全指南 python 直接调用 OLLama api 翻译助手演示