微信扫码
添加专属顾问
我要投稿
大型语言模型(LLMs)在处理长文本时面临的挑战,尤其是推理成本随着序列长度的增加而呈二次方增长,这导致了在实际应用中的部署成本高昂。此外,LLMs还会出现“分心现象”,即无关的上下文会降低输出质量。
为了解决这些问题,提出了一种新的检索增强生成(RAG)提示方法——超位置提示(superposition prompting),该方法可以直接应用于预训练的基于Transformer的LLMs,无需进行微调。
图2超位置提示与传统的(Naive LLM-RAG)提示范式的比较。正方形代表一个标记(token),箭头表示注意力依赖关系。传统的方法是“链表”风格的有向无环图(DAG),而超位置提示则安排标记依赖关系,使得所有文档都能独立处理。由于这种依赖结构,可以轻松地利用LLM的logits来剪枝无关的上下文,从而提高长上下文推理的能力。这种依赖结构还允许更快的提示处理,因为有了新的缓存和KV缓存及logit计算的并行性机会(每个灰色框表示LLM处理的一个逻辑“批次”,重用上游KV缓存)。
图3在“在线服务”期间必须计算的内隐注意力依赖关系((b)-(f)中的颜色对应于图2中的标记段颜色)。注意各种优化如何通过剪枝、预计算和并行化工作来减轻在线服务时所需的计算负担。值得再次强调的是,在实践中,推理不是对一个大型序列的稀疏注意力,而是对许多不同较短标记段的密集注意力。
Superposition Prompting: Improving and Accelerating Retrieval Augmented Generationhttps://arxiv.org/pdf/2404.06910.pdf
53AI,企业落地大模型首选服务商
产品:场景落地咨询+大模型应用平台+行业解决方案
承诺:免费场景POC验证,效果验证后签署服务协议。零风险落地应用大模型,已交付160+中大型企业
2025-02-01
2025-01-01
2024-08-13
2024-04-25
2025-02-04
2024-07-25
2024-06-13
2024-04-26
2024-09-23
2024-04-12