我要投稿

评估 RAG 和长上下文 LLM 输出的质量

发布日期：2024-08-02 19:32:55 浏览次数： 1844 来源：码农大牛毛

介绍

如何衡量长上下文 LLM 输出和 RAG 结果的质量？SalesForce 着手创建一个数据集和一个框架来衡量生成输出的准确性。

Salesforce 设计了一个程序来创建包含重复见解或信号的文档“干草堆” 。 “干草堆摘要”(SummHay)任务要求系统生成识别相关见解并引用源文档的摘要。

通过对预期见解和引用的精确了解，Salesforce 实现了对覆盖率和引用的自动评估评分摘要。

Salesforce 在对话和新闻领域创建了Haystacks，并评估了 10 个 LLM 和 50 个 RAG 系统。他们的结果表明，SummHay仍然是一个挑战，即使是最好的系统也比人类的表现 (56%) 落后 10 多个百分点。

RAG 和长上下文窗口

SummHay 还可用于研究企业 RAG 系统和长上下文模型中的定位偏差。Salesforce 设想，未来系统可以在SummHay上匹敌甚至超越人类的表现。

尽管 RAG 和长上下文 LLM 都旨在解决回答大量文本查询的问题，但仍然缺乏对常见任务的直接比较，这使得评估具有挑战性。

最近的测试要求模型在大型文档中查找小块信息。然而，这些任务缺乏区分最新大型语言模型能力所需的复杂性，因为许多最先进的模型实现了近乎完美的性能。

总结

Salesforce 建议利用摘要任务作为评估长上下文模型和 RAG 系统的试验台。

总结需要基于长期背景的推理以及对内容的相对重要性的仔细理解。

已确定的问题：

关于摘要评估的先前工作，特别是在评估摘要的相关性方面，主要集中于单文档摘要或输入内容约为 1,000-2,000 个标记的任务。

较长的对话和多文档新闻摘要通常仍然限制在 10k 个标记左右。

摘要评估的一个主要问题是依赖低质量的参考摘要和与人类判断相关性较差的自动指标。

传统评估将候选摘要与黄金标准参考文献进行比较，假设重叠度越高表示质量越好。这种方法不可靠，尤其是在长上下文环境中，因为获取高质量参考文献的成本很高。即使是最好的内容覆盖率自动指标也常常无法与人类判断很好地相关。

为了解决这些问题，Salesforce 使用合成数据生成。

考虑下面的图片，Salesforce 的方法包括针对给定主题创建大量文档（“Haystack”），确保某些信号在文档之间重复出现。

通过控制哪些见解出现在哪些文档中， Salesforce 可以自动确定搜索查询的相关见解。SummHay任务要求系统总结这些见解并引用其来源。总结的评估基于预期见解的覆盖范围和引用源文档的准确性。

生成干草堆的程序

Haystacks 在两个领域生成，即对话和新闻文章。

Haystack 通常包含有关某个主题的 100 份文档，总计约 10 万个标记。Salesforce 总共生成 10 个 Haystack，每个 Haystack 大约有 10 个查询，总共 92 个SummHay任务。该管道可以扩展并应用于其他领域。

评估协议

SummHay评估协议，主要评估系统输出的参考见解覆盖率和引用质量。手动注释证实了该协议在知识渊博的注释者中具有很强的可重复性（相关性为 0.77）。

然后，Salesforce 尝试了基于 LLM 的评估，发现虽然相关性水平略低（0.71），但评估成本却降低了近 50 倍。

人类表现评估

Salesforce 在SummHay上建立了对人类表现的评估，并对 50 个 RAG 系统和 10 个长上下文 LLM 进行了大规模评估。

他们的研究结果表明：

对所有评估系统来说， SummHay都是一项艰巨的任务，因为没有一个模型能够达到接近人类水平的性能。即使模型被赋予了预言信号（这是哪些文档相关的完美指标），情况仍然如此。
尽管具有此优势，但模型在总结见解和准确引用来源方面仍远远达不到人类的表现。
在 RAG（检索增强生成）管道和长上下文 LLM（大型语言模型）之间进行选择时，需要考虑重要的权衡。
RAG 系统通常提供更好的引用质量，这意味着它们可以更准确地引用特定文档或来源。
然而，这往往是以牺牲洞察覆盖为代价的，洞察覆盖指的是全面捕获和总结所有相关信息的能力。
相比之下，长语境法学硕士 (LLM) 可能涵盖更全面的见解，但可能难以提供精确和准确的引用。
使用先进的 RAG 组件（例如重新排序）可以提高任务的端到端性能，从而证实SummHay是整体 RAG 评估的可行选择。
SummHay上的位置偏差实验证实了中间丢失现象，表明大多数 LLM 偏向于上下文窗口顶部或底部的信息。

53AI，企业落地应用大模型首选服务商

产品：大模型应用平台+智能体定制开发+落地咨询服务

承诺：先做场景POC验证，看到效果再签署服务协议。零风险落地应用大模型，已交付160+中大型企业

160+中大型企业正在使用53AI

立即咨询预约演示

百度智能云邀53AI：共创AI新纪元，启航智能新时代

2024-05-27

钉钉恒星计划：53AI与百余位企业家及钉钉生态伙伴，共议“AI 浪潮下的新机遇”

2024-05-22

热点资讯

GraphRAG+Ollama 本地部署，保姆教程，踩坑无数，闭坑大法

2024-07-18

RAGFlow：基于OCR和文档解析的下一代 RAG 引擎

2024-05-05

一文彻底搞懂大模型 - RAG（检索、增强、生成）

2024-09-04

RAG框架，都在这了!

2024-06-20

基于Llama 3 构建RAG语音助手：将本地 RAG 与 Qdrant、Whisper 和 LangChain 集成

2024-05-19

微软开源的GraphRAG解读

2024-07-09

深入解析 Graph RAG：提升语言模型问答能力的创新策略

2024-07-09

Prompt工程师必备：复旦重磅 | 最佳RAG实践长什么样的？

2024-07-07

RAG 高效应用指南：Embedding 模型的选择和微调

2024-06-13

下一代 RAG 技术来了！微软正式开源 GraphRAG：大模型行业将迎来新的升级？

2024-07-07

大家都在问

影响RAG检索效果的原因有那些？

2024-12-27

在推荐、RAG等业务中，如何完成亿级向量的快速检索？

2024-12-26

除了混合搜索，RAG 还需要哪些基础设施能力？

2024-12-24

构建行业RAG应用系统：金融、财务、保险、医疗等行业该怎么做？

2024-12-21

为什么分块在RAG技术中很重要？但又很没有存在感？

2024-12-14

比GraphRAG还好的LightRAG到底是何方神圣？

2024-12-01

企业级RAG应用的5大技术发展趋势，你准备好了吗？

2024-11-27

RAG搭建中，如何选择最合适的向量索引？

2024-11-25

开箱即用的企业大模型应用平台

工作+AI

业务+AI

AIx业务

大模型咨询

大模型定制

介绍