我要投稿

Apple提出Superposition Prompting：用于提升大模型RAG效率和准确性的新提示方法

发布日期：2024-04-18 20:52:11 浏览次数： 2088 作者：PaperAgent

大型语言模型（LLMs）在处理长文本时面临的挑战，尤其是推理成本随着序列长度的增加而呈二次方增长，这导致了在实际应用中的部署成本高昂。此外，LLMs还会出现“分心现象”，即无关的上下文会降低输出质量。

为了解决这些问题，提出了一种新的检索增强生成（RAG）提示方法——超位置提示（superposition prompting），该方法可以直接应用于预训练的基于Transformer的LLMs，无需进行微调。

超位置提示的核心思想是将输入的文本段落（如系统提示、文档和用户查询）构建成一个有向无环图（DAG），其中节点代表标记序列，边表示注意力依赖关系。这种方法允许LLM并行处理与查询相关的所有文档，并通过路径剪枝机制丢弃被认为与查询无关的上下文。这种结构使得可以利用LLM的logits来剪枝不相关的上下文，从而提高长上下文推理的效率。

超位置提示还提出了几种优化技术来加速推理过程：

路径缓存（Path Caching）：通过缓存键值（KV）嵌入来加速推理，这样在在线服务阶段可以重用预先计算的KV缓存，而不是原始的输入标记序列。
路径并行化（Path Parallelization）：由于超位置提示中的路径是相互独立的，可以并行计算它们的KV缓存和logits，从而减少用户感知的响应时间。

此外，还提出了一种平衡位置分配策略，用于为超位置提示中的标记分配有意义的位置，以及一种基于贝叶斯路径显著性的剪枝方法，用于计算文档与查询的相关性并据此剪枝。

图2超位置提示与传统的（Naive LLM-RAG）提示范式的比较。正方形代表一个标记（token），箭头表示注意力依赖关系。传统的方法是“链表”风格的有向无环图（DAG），而超位置提示则安排标记依赖关系，使得所有文档都能独立处理。由于这种依赖结构，可以轻松地利用LLM的logits来剪枝无关的上下文，从而提高长上下文推理的能力。这种依赖结构还允许更快的提示处理，因为有了新的缓存和KV缓存及logit计算的并行性机会（每个灰色框表示LLM处理的一个逻辑“批次”，重用上游KV缓存）。

图3在“在线服务”期间必须计算的内隐注意力依赖关系（(b)-(f)中的颜色对应于图2中的标记段颜色）。注意各种优化如何通过剪枝、预计算和并行化工作来减轻在线服务时所需的计算负担。值得再次强调的是，在实践中，推理不是对一个大型序列的稀疏注意力，而是对许多不同较短标记段的密集注意力。

实验结果表明，超位置提示在多种预训练LLM上的时间效率和准确性方面都有所提高。特别是在NaturalQuestions-Open数据集上，使用MPT-7B指令调整模型，相比于传统的RAG方法，超位置提示实现了93倍的计算时间减少和43%的准确性提升。此外，还展示了该方法在MuSiQue数据集上的有效性，该数据集是一个多跳推理数据集，旨在使断开的推理变得更加困难。实验结果表明，超位置提示在各种模型和数据集上都能提高长序列建模的准确性，同时减少用户观察到的响应延迟，且无需对基础模型进行额外的训练或微调。

在NaturalQuestions-Open数据集上，各种模型和方法的检索增强生成准确性。对于具有超参数的基线——即BM-25、TF-IDF和Contriever的top-k参数——展示了它们最高准确性的配置。超位置提示在准确性和加速两个方面相对于考虑的基线的优越性。

在MuSiQue数据集上，各种模型的检索增强生成准确性。对于超位置提示，t表示迭代超位置的迭代次数，k表示在每一步选择的前k个（即未剪枝的）。

Superposition Prompting: Improving and Accelerating Retrieval Augmented Generationhttps://arxiv.org/pdf/2404.06910.pdf

53AI，企业落地大模型首选服务商

产品：场景落地咨询+大模型应用平台+行业解决方案

承诺：免费场景POC验证，效果验证后签署服务协议。零风险落地应用大模型，已交付160+中大型企业

相关资讯

2024-07-10

科研助力神器：Scholar GPT，百倍提升你的研究效率！

2024-07-09

Doc2X：一款功能超级强大的文档解析与转换工具

2024-07-06

我对多智能体协作过程自动演化架构设计

2024-07-06

可穿戴AI，底层逻辑的变化

2024-07-06

一文彻底搞懂Transformer - Word Embedding（词嵌入）

2024-07-06

AI动态 | 腾讯元宝AI搜索能力升级：深度搜索模式上线

2024-07-06

智能手表 + AI ，都已经这么智能了？？

2024-07-06

死磕10万卡GPU算力集群，腾讯星脉网络2.0有什么秘密武器？

了解更多

160+中大型企业正在使用53AI

立即咨询预约演示

把握AI发展的机遇，共同探索、共同进步

2025-01-22

如何打造基于GenAI的员工服务机器人

2025-01-22

热点资讯

爆肝50小时，DeepSeek使用技巧，你收藏这一篇就够了！

2025-02-01

我把最近爆火的 DeepSeek-V3 接到了 Cursor！

2025-01-01

Ollama 本地运行大模型(LLM)完全指南

2024-07-25

一文读懂DeepSeek-R1本地部署配置要求（建议收藏）

2025-02-04

本地部署大模型？看这篇就够了，Ollama 部署和实战

2024-08-13

更改ollama模型存储路径

2024-04-25

16个具有“联网搜索”功能的AI：总有一个适合你！

2024-06-13

Cursor 一个真正让程序员产生危机感的 AI 编程工具

2024-08-21

OpenAI o1与GPT4o的对比分析

2024-09-23

全民AI时代：手把手教你用Ollama & AnythingLLM搭建AI知识库，无需编程，跟着做就行！

2024-04-26

大家都在问

RAG vs. CAG vs. Fine-Tuning：如何为你的大语言模型选择最合适的“脑力升级”？

2025-04-19

微软最新 Playwright MCP 服务器强势来袭？

2025-04-19

大概念模型（Large Concept Models）会取代提示工程吗？

2025-04-18

什么是RAG与为什么要RAG？

2025-04-18

OpenAI开源的Codex CLI是什么？

2025-04-17

LLM中的Token和Embedding到底是啥？

2025-04-16

思维链（Chain of Thought）是什么？有什么价值？怎么用？

2025-04-16

真实场景下落地RAG的十条建议及RAG中如何提升个性化？

2025-04-16

热门标签

内容创作大模型技术个人提效 langchain llamaindex 多模态技术 RAG技术智能客服知识图谱模型微调 RAGFlow coze Dify Fastgpt Bisheng Qanything AI+汽车 AI+金融 AI+工业 AI+培训 AI+SaaS 提示词框架提示词技巧 AI+电商 AI面试数字员工 ChatBI 知识管理开源大模型智能营销智能硬件智能化改造 AI+医疗 MaxKB