我要投稿

EM-LLM：基于情景记忆的长文本LLM架构

发布日期：2024-07-21 10:31:52 浏览次数： 2594

华为诺亚方舟实验室和伦敦大学学院的研究人员提出了一种名为 EM-LLM 的新型架构，该架构将人类情景记忆和事件认知的关键方面融入到基于 Transformer 的语言模型中，使它们能够处理更长的上下文并有效地执行复杂的时间推理任务。

论文介绍

尽管大型语言模型 (LLMs) 的能力不断增强，但它们在处理大量上下文信息方面仍需要帮助。这些限制源于基于 Transformer 的架构难以推断超出其训练窗口大小的信息。处理长标记序列需要大量的计算资源，并且可能产生嘈杂的注意力嵌入。这些限制阻碍了 LLMs 有效整合特定领域、私有或最新信息的能力。研究人员尝试了各种方法，包括基于检索的方法，但在短上下文和长上下文任务之间仍然存在显著的性能差距，即使使用现有的长上下文架构也是如此。

研究人员探索了各种扩展 LLMs 上下文窗口的方法，重点关注改进 softmax 注意力、降低计算成本和增强位置编码。基于检索的方法，特别是基于组的 k-NN 检索，通过检索大型标记组和充当分层注意力机制，已显示出良好的前景。

同时，对情景记忆神经模型的研究为了解大脑存储经验的过程提供了 insights。这些模型强调了基于意外事件分割和时间动态在记忆形成和检索中的重要性。研究表明，基于 Transformer 的 LLMs 表现出与人类记忆检索类似的时间连续性和不对称效应，这表明在适当的上下文信息下，它们有可能充当情景记忆检索模型。

来自华为诺亚方舟实验室和伦敦大学学院的研究人员提出了一种 EM-LLM，这是一种将情景记忆集成到基于 Transformer 的 LLMs 中的独特架构，使其能够处理更长的上下文。它将上下文分为初始标记、 evicted 标记（由情景记忆模型管理）和局部上下文。该架构通过在推理过程中根据意外级别将标记序列分割成事件来形成记忆，并使用图论度量来优化内聚性和分离性，从而改进边界。记忆检索采用两阶段机制：k-NN 搜索检索类似事件，而连续性缓冲区维护时间上下文。这种方法模仿了人类的情景记忆，增强了模型处理扩展上下文和有效执行复杂时间推理任务的能力。

EM-LLM 扩展了预训练的 LLMs，以处理更大的上下文长度。它将上下文分为初始标记、evicted 标记和局部上下文。局部上下文使用完整的 softmax 注意力，表示最新和最相关的信息。由类似于短期情景记忆的记忆模型管理的 evicted 标记构成了大部分过去的标记。初始标记充当注意力接收器。对于局部上下文之外的检索到的标记，EM-LLM 分配固定的位置嵌入。这种架构允许 EM-LLM 处理超出其预训练上下文窗口的信息，同时保持性能特征。

与基线 InfLLM 模型相比，EM-LLM 在长上下文任务上表现出更好的性能。在 LongBench 数据集上，EM-LLM 在除一项任务外的所有任务中都优于 InfLLM，总体提高了 1.8 个百分点（相对提高了 4.3%）。此外，EM-LLM 在 PassageRetrieval 任务上显示出显著的进步，提高了 33%，在 HotpotQA 任务上提高了 9.38%。这些结果突出了 EM-LLM 从大型上下文中回忆详细信息和对多个支持文档进行复杂推理的增强能力。该研究还发现，基于意外的分割方法与人类事件感知密切相关，优于固定或随机事件分割方法。

EM-LLM 代表了具有扩展上下文处理能力的语言模型的重大进步。通过将人类情景记忆和事件认知融入到基于 Transformer 的 LLMs 中，它可以有效地处理来自 vastly 扩展上下文的信息，而无需进行预训练。基于意外的事件分割、图论边界细化和两阶段记忆检索的结合，使得在长上下文任务上具有优越的性能。EM-LLM 为实现几乎无限的上下文窗口提供了一条途径，这可能会彻底改变 LLM 与持续的个性化交互。这种灵活的框架可以替代传统的 RAG 技术，并提供了一个可扩展的计算模型来测试人类记忆假设。通过 bridging 认知科学和机器学习，EM-LLM 不仅增强了 LLM 的性能，还激发了 LLM 和人类记忆机制交叉领域的进一步研究。