AI知识库

53AI知识库

学习大模型的前沿技术与行业应用场景


Apple提出Superposition Prompting:用于提升大模型RAG效率和准确性的新提示方法
发布日期:2024-04-18 20:52:11 浏览次数: 1733


大型语言模型(LLMs)在处理长文本时面临的挑战,尤其是推理成本随着序列长度的增加而呈二次方增长,这导致了在实际应用中的部署成本高昂。此外,LLMs还会出现“分心现象”,即无关的上下文会降低输出质量。

为了解决这些问题,提出了一种新的检索增强生成(RAG)提示方法——超位置提示(superposition prompting),该方法可以直接应用于预训练的基于Transformer的LLMs,无需进行微调。

超位置提示的核心思想是将输入的文本段落(如系统提示、文档和用户查询)构建成一个有向无环图(DAG),其中节点代表标记序列,边表示注意力依赖关系。这种方法允许LLM并行处理与查询相关的所有文档,并通过路径剪枝机制丢弃被认为与查询无关的上下文。这种结构使得可以利用LLM的logits来剪枝不相关的上下文,从而提高长上下文推理的效率。
超位置提示还提出了几种优化技术来加速推理过程:
  • 路径缓存(Path Caching):通过缓存键值(KV)嵌入来加速推理,这样在在线服务阶段可以重用预先计算的KV缓存,而不是原始的输入标记序列。
  • 路径并行化(Path Parallelization):由于超位置提示中的路径是相互独立的,可以并行计算它们的KV缓存和logits,从而减少用户感知的响应时间。
此外,还提出了一种平衡位置分配策略,用于为超位置提示中的标记分配有意义的位置,以及一种基于贝叶斯路径显著性的剪枝方法,用于计算文档与查询的相关性并据此剪枝。

图2超位置提示与传统的(Naive LLM-RAG)提示范式的比较。正方形代表一个标记(token),箭头表示注意力依赖关系。传统的方法是“链表”风格的有向无环图(DAG),而超位置提示则安排标记依赖关系,使得所有文档都能独立处理。由于这种依赖结构,可以轻松地利用LLM的logits来剪枝无关的上下文,从而提高长上下文推理的能力。这种依赖结构还允许更快的提示处理,因为有了新的缓存和KV缓存及logit计算的并行性机会(每个灰色框表示LLM处理的一个逻辑“批次”,重用上游KV缓存)。

图3在“在线服务”期间必须计算的内隐注意力依赖关系((b)-(f)中的颜色对应于图2中的标记段颜色)。注意各种优化如何通过剪枝、预计算和并行化工作来减轻在线服务时所需的计算负担。值得再次强调的是,在实践中,推理不是对一个大型序列的稀疏注意力,而是对许多不同较短标记段的密集注意力。

实验结果表明,超位置提示在多种预训练LLM上的时间效率和准确性方面都有所提高。特别是在NaturalQuestions-Open数据集上,使用MPT-7B指令调整模型,相比于传统的RAG方法,超位置提示实现了93倍的计算时间减少和43%的准确性提升。此外,还展示了该方法在MuSiQue数据集上的有效性,该数据集是一个多跳推理数据集,旨在使断开的推理变得更加困难。实验结果表明,超位置提示在各种模型和数据集上都能提高长序列建模的准确性,同时减少用户观察到的响应延迟,且无需对基础模型进行额外的训练或微调。
在NaturalQuestions-Open数据集上,各种模型和方法的检索增强生成准确性。对于具有超参数的基线——即BM-25、TF-IDF和Contriever的top-k参数——展示了它们最高准确性的配置。超位置提示在准确性和加速两个方面相对于考虑的基线的优越性

在MuSiQue数据集上,各种模型的检索增强生成准确性。对于超位置提示,t表示迭代超位置的迭代次数,k表示在每一步选择的前k个(即未剪枝的)。

Superposition Prompting: Improving and Accelerating Retrieval Augmented Generationhttps://arxiv.org/pdf/2404.06910.pdf




53AI,企业落地应用大模型首选服务商

产品:大模型应用平台+智能体定制开发+落地咨询服务

承诺:先做场景POC验证,看到效果再签署服务协议。零风险落地应用大模型,已交付160+中大型企业

联系我们

售前咨询
186 6662 7370
预约演示
185 8882 0121

微信扫码

与创始人交个朋友

回到顶部

 
扫码咨询