我要投稿

本篇文章将会对论文《Empowering Working Memory for Large Language Model Agents》进行解读分享

发布日期：2024-06-19 08:16:03 浏览次数： 2696

作者：吃果冻不吐果冻皮

微信搜一搜，关注“吃果冻不吐果冻皮”

本篇文章将会对论文《Empowering Working Memory for Large Language Model Agents》进行解读分享。为了克服传统大语言模型（LLM）缺乏情景记忆和不同交互领域连续性的局限性，本文探讨了应用认知心理学工作记忆框架来增强 LLM 架构，并提出了一种创新模型。该模型具有集中式工作记忆中心并提供对情景缓冲区的访问能力，用于构建具有复杂的、类人记忆功能的 LLM Agent，并强调需要进一步研究优化记忆编码、存储、优先级、检索和安全性以实现这个目标。总体而言，这篇论文为开发具有更复杂、类似人类的记忆能力的 LLM 智能体提供了战略蓝图，强调了记忆机制是人工通用智能的重要前沿。

背景介绍

大语言模型 LLM 的发展标志着人工智能领域的重大进步，特别是在语言理解、生成和推理领域。尽管 LLM 具有出色的语言能力，但存在一个难题：如何有效管理记忆以实现更接近人类的智能？为解决这个问题，人们借鉴了认知心理学基础框架，但在人工智能架构中的应用并不简单，并且这些以人为中心的概念如何转化为人工系统存在固有的局限性。

传统的 LLM Agent 设计缺乏强大的情景记忆和不同交互之间的连续性。LLM Agent 通常具有有限的记忆容量，受到其 token 数量的限制可以在单个交互中处理。这种局限限制了他们保留和利用先前交互中的上下文的能力。此外，每次交互都被视为一个孤立的事件，连续对话之间没有联系。这种孤立的短期记忆阻碍了 MAS（multi-agent system）系统中复杂的顺序推理和知识共享。缺乏强大的情景记忆和交互连续性会阻碍智能体执行复杂的顺序推理任务的能力，而这对于更高级的问题解决能力至关重要（图1）。

特别是在 MAS 系统中，Agent 之间缺乏合作通信可能会导致结果不佳。理想情况下，Agent 应该立即分享行动或学习经验，以有效地实现共同目标。人们提出了一些人工智能记忆架构，例如神经图灵机和记忆网络，以增强 LLM Agent 的记忆能力，旨在为内存管理提供更复杂的框架，更好地模仿类人智能和记忆功能。然而，这些模型经常面临与计算复杂性、集成困难、跨任务泛化有限、依赖大量训练数据以及记忆功能缺乏类似人类的灵活性和可解释性等挑战技术难题

人类认知心理学中的工作记忆模型

20 世纪中期，在认知心理学领域兴起了 “多成分记忆模型”，使人们对工作记忆的概念产生了浓厚的兴趣。该模型将记忆分为感觉记忆、短期记忆和长期记忆。随后，1974 年引入了“工作记忆模型”，将其描述为不仅是短期记忆的替代品，而且是一种细致入微的多组件系统，致力于信息的瞬时存储和操作（图 2）。

这一模型的核心是中央执行机构（Central Executive），充当监督者。它协调注意力分配，确定信息优先级，并确保其子系统之间的有效运作。该组件与两个关键子系统进行通信。视觉空间（Visuospatial Sketchpad）模块专门研究空间和视觉信息，与我们的感知系统紧密相连。语音循环（Phonological Loop）模块通常用户保存语音内容，但其存储时间短。情景缓冲区（Episodic Buffer）作为附加组件充当临时存储，合并不同来源的信息，从而在中央执行机构、视觉空间模块和语音模块之间建立连贯性。

但是该模型的深度超出了它的组成部分。工作记忆与长期记忆之间存在着很深很复杂的联系，信息根据需要在两者之间传递处理。

LLM Agent 中的工作内存架构

从人类的工作记忆模型中汲取灵感，LLM Agent 的工作记忆提供了独特但类似的架构（图 3）。

中央处理器（Central Processor）本质上就是 LLM 本身，获取海量训练数据与实时输入，编排数据流并确保执行适当的信息处理、分析和决策。外部环境传感器（External Environment）作为网关，促进与外部系统和数据库的实时交互。交互历史窗口（Interaction History Window）保留了最近的交互记录，为正在进行的任务提供上下文锚点。

然而，该模型存在以下两个挑战：

由于 LLM 固有的 token限制，只能保留有限的对话范围，在大量交互中可能会丢失超出其 token容量的原上下文信息。
缺少人类工作记忆模型所包含的情景缓冲区。由模型中“任务域”（图3虚线内范围）的概念可知，与 LLM 的每一次互动会话都被视为其单独的领域。当发起后续交互时，建立了一个新的域，没有与之前的域的直接链接。

解决方案

为了解决上文 LLM Agent 工作内存机制提到的两个挑战，当前研究工作正在积极探索方法。针对第一个挑战，已经开发出技术来维持长期对话，有效克服上下文窗口的限制，如：递归总结、RecurrentGPT、长期记忆等，但是它们并没有解决记忆孤岛的问题。对于第二个挑战，可以将记忆直接纳入模型本身，从而产生个性化 Agent，但带来了更高的运行成本，并存在丢失工作内存中复杂细节的风险。

为了增强 LLM 代理的记忆能力，本文提出了一种创新的记忆架构（图4）。这种改进的模型结合了额外的组件来解决传统工作记忆模型的局限性。

工作内存中心（Working Memory Hub）统一集线器协调其他组件之间的数据流。它存储所有输入、输出和交互历史记录，提供交互历史记录窗口和情景缓冲区等其他元素，以解决组件之间记忆孤岛的问题。与上述工作记忆模型类似，其核心是由 LLM 组成的中央处理器（Central Processor），充当大脑，确保信息得到处理、分析，并根据外部环境接口的历史和当前输入的和谐混合做出决策。此外，外部环境接口（External Environment）有利于动态外部数据持续流入系统。它从用户和外部源获取实时输入，并将其路由到中央处理器进行分析。同样，它捕获中央处理器的输出并将其作为响应进行传输。所有输入和输出都存储在工作内存中心中。通过交互历史记录窗口（Interaction History Window）保存最近交互记录的短期缓存，提供上下文锚点。历史记录可以根据需要采取多种形式，例如最新对话的滚动窗口、抽象摘要或相关摘录，这可以更灵活地使用聊天记录。情景缓冲区（Episodic Buffer）从工作内存中心检索完整的情景，允许 Agent 访问与当前上下文相关的特定事件或对话的记忆，解决了传统 LLM token 限制的问题。

工作内存中心（Working Memory Hub）技术途径

要为 LLM 代理创建内存中心，可以使用第三方数据库作为外部内存存储库。通过访问这些内容，LLM 可以获取事实数据或嵌入，从而生成更精确和上下文准确的响应。

外部存储器模块使用的存储格式直接影响检索策略。自然语言存储提供丰富的语义信息，使其非常适合需要深入文本探索的基于关键字的搜索。然而，这种格式不适用于关注整体含义而不是特定关键字的更广泛语义的搜索场景。另一方面，嵌入通过封装语义上下文的向量表示来简化检索。虽然嵌入很高效，但缺乏自然语言的细致描述性。理想情况下，自然语言和嵌入将同时使用，以充分利用它们的互补优势。然而，底层数据库和平台的限制通常会限制可行的存储选项。例如，Postgres 和 Elasticsearch 有利于自然语言存储的原始文本数据，而 Picone 擅长矢量相似性搜索的嵌入。

Xata 等 PaaS 平台提供了强大的解决方案。MAS 的模块化特性意味着代理可以设计为与外部系统交互，包括 PaaS 平台上托管的数据库。大多数 PaaS 解决方案的 API 驱动架构如下：

Agent 可以配置为进行 API 调用，将其内存数据推送到数据库。
可以通过 API 端点检索数据，Agent 发送请求并实时收到记忆数据。
通过适当的身份验证和授权机制，只有指定的 Agent 或系统才能访问内存的特定段，从而确保数据的完整性和安全性。

从内存中心（Memory Hub）到情景缓冲区（Episodic）

MAS 中的内存访问机制

在 MAS 中，管理 Agent 对情景缓冲区内存的访问对于效率和安全性至关重要。内存访问策略根据代理角色、任务规范、协作需求和整体系统架构等因素而有所不同。常见技术包括基于角色的访问控制、任务驱动的内存分配、自主内存检索和专用内存管理代理。下面将详细探讨 Agent 不同内存访问机制。

基于角色的内存访问
Agent 根据其在系统内指定的角色和职责分配内存访问权限，确保了高效内存利用。
把一个 Agent 的角色设定为主管或监督者，它可能被授予全面的访问权限，允许它检索所有其他 Agent 的内存，使其能够监控、评估和协调其他 Agent 的活动，确保整个系统协调一致地运作。相反，专用于特定任务的 Agent 可能仅限于访问自己最近的记忆，确保其始终专注于当前任务，而不会因过去不相关的交互而造成潜在的干扰或计算开销。
虽然基于角色的内存访问提供了结构化效率，但必须灵活地定制这些角色。过于严格的规则可能会抑制代理的适应性，而过于广泛的访问可能会导致效率低下或潜在的安全漏洞。关键是找到平衡点，确保每个代理都能获得其真正需要的信息，以最佳方式履行其职责。
基于任务的内存访问
系统评估手头任务的确切性质和要求，然后为 MAS 提供与该任务直接相关的记忆。这确保了 Agent 接收到的信息是针对其当前的需要而优化的，从而可能更快、更准确地完成任务。
自主内存访问
在高级设置中，Agent 被赋予自主权来自行确定他们需要哪些内存段，不依赖严格的预定义规则，而是使用任务中的上下文线索来获取最相关的内存部分。Agent 可以访问的内容没有严格的界限，允许它进行最优判断。
相比之下，任务特定内存访问方法更加严格。该机制中，Agent 仅限于访问与其当前任务直接相关的那些内存段。
基于协作场景的内存访问
当 Agent 协作工作时，内存访问机制可能会根据其协作的性质而有所不同。在并行协作中，Agent 需要完全访问共享内存。在串行顺序协作中，每个 Agent 会根据前一个 Agent 处理的内容来访问内存。
内存管理Agent
在 MAS 中运行时，特别是在需要战略规划和预见性的场景中，内存管理 Agent 可以围绕过去的相互作用、结果和模式来预测未来的最佳行动路线。它确保负责规划的 Agent 收到一套精准构建的记忆，使其能够做出更明智、更具战略性的决策。
该机制是专门为管理、排序和检索这些历史数据的相关部分而定制的。鉴于其专业化的职能，与试图自行筛选大量数据的个人 Agent 相比，它可以提供更精简和高效的服务。此外，该机制可以了解规划需求的上下文和深度。如果计划进行短期实验，会优先考虑最近的交互和较新的数据。相反对于长期研究，它会提供历史趋势和近期数据的混合。

提高 MAS 内存检索效率的策略

本文深入研究了三种主要检索策略：SQL 搜索、全文搜索、语义搜索（向量搜索）。这些策略适合不同的应用场景，为 MAS 生态系统中的内存检索提供了独特的方法。

SQL 搜索
SQL 搜索允许根据特定条件进行精确的数据检索，通常涉及结构化标签、时间戳或字段，适用于对精度要求高的场景。例如，代理可以使用 SQL 查询命令来检索特定时间范围内的内存段。
全文（Full-Text）搜索
全文搜索涉及扫描整个文本数据集以查找特定序列或字符串的过程。此方法不仅查找精确匹配，还考虑基于文本结构和措辞的近似值。此方法适用于广泛的查询或信息的确切位置或标签未知的场景。例如，当用户提出有关“气候变化影响”的一般性问题时，Agent 可以利用全文搜索来浏览其整个内存并获取解决该主题的相关段落或交互。
语义搜索
语义搜索是超越文字匹配的方法。对于 Agent 来说，语义搜索允许更深入、更具上下文关系的记忆检索，使他们能够理解和获取信息，不仅仅是基于确切的措辞，而是基于潜在的意图或意义。该方法适用于用户的查询可能无法直接匹配存储的短语，但与上下文相关的场景。例如，如果用户询问“对抗温室效应的措施”，Agent 可能在其记忆中无法直接找到这个短语。然而，使用语义搜索，Agent 可以检索讨论“碳抵消”、“再造林”或“可持续能源”的交互记录，因为这些主题与原始查询共享上下文关系，提供细致而全面的响应。

MAS 中 Agent 工作记忆检索的复杂性质需要多方面的策略。通过利用SQL搜索、全文搜索、语义搜索的功能，我们可以构建一个复杂的、自适应的内存检索机制。每种方法都有自己的优点：全文搜索是直接和精确的，语义搜索确保了上下文相关的结果，而SQL搜索提供了时间顺序的特异性。最理想的效果是当这些方法结合起来时所实现的协同效应。例如，Agent 可以使用SQL启动搜索，以精确定位特定时间范围内的记忆，然后使用语义搜索细化结果，以了解数据在语义上的细微差别。这种主流搜索技术的融合为更具响应性、适应性和高效的内存管理系统铺平了道路，拓宽了 MAS 可以实现的功能边界。

总结与展望

本文探讨了工作记忆模型的应用，从认知心理学到 LLM Agent 的新兴领域。传统的 LLM Agent 缺乏跨交互领域的情景记忆深度和连续性。为了解决这些问题，提出了一种增强模型，将集中式工作内存中心与情景缓冲区访问结合起来。这使 Agent 在复杂的顺序任务和协作参与期间拥有更好的上下文记忆。该创新模型为开发具有更强大和类似人类记忆能力的法学硕士代理提供了战略蓝图。要充分实现这些目标，记忆编码、巩固和检索机制的进步势在必行。

但所提出的工作记忆模型仍有局限性，需要进一步研究。首先，该模型需要更精确的机制来根据上下文因素确定记忆相关性和检索优先级，模仿人脑记忆巩固过程的更先进的神经算法可以增强该模型。其次，需要评估访问量增加的存储系统的安全漏洞。需要在高效内存共享和数据保护之间进行优化，特别是对于协作 MAS 系统。第三，需要开发压缩情景记忆进行存储的方法，以有效管理大量的长期交互数据。

总体而言，为人工智能带来类似人类的情景记忆能力仍然是一个巨大的挑战。提高工作记忆能力对于在这些系统中释放更多可传递的智能和认知至关重要。

53AI，企业落地大模型首选服务商

产品：场景落地咨询+大模型应用平台+行业解决方案

承诺：免费POC验证，效果达标后再合作。零风险落地应用大模型，已交付160+中大型企业