我要投稿

大语言模型多智能体强化学习综述：问题定义、现有进展、未来方向

发布日期：2024-08-12 07:46:48 浏览次数： 3160 作者：旺知识

近年来，大型语言模型（LLMs）在各种任务上表现出了巨大能力，包括回答问题、解决算术问题和写诗等。尽管将LLM作为智能体的研究已经显示LLM可以应用于强化学习（RL），并取得了不错的结果，但将基于LLM的RL扩展到多智能体系统（MAS）并不简单，因为RL框架中的许多方面，如智能体之间的协调和通信，并没有考虑在内。为了激发更多关于基于LLM的多智能体强化学习（MARL）的研究，本文综述了现有的基于LLM的单智能体和多智能体RL框架，并为未来的研究提供了潜在的研究方向。特别是，我们专注于多个智能体的合作任务，他们有一个共同的目标和相互之间的通信。我们还考虑了由框架中的语言组件启用的人类在/回路场景。

关键词 —— 多智能体强化学习，语言模型，多智能体系统。、

I. 引言

多智能体强化学习（MARL）已成为解决多智能体系统（MAS）中协调问题的一种流行方法。与基于个体强化学习（IRL）或传统基于优化的解决方案相比，MARL在可扩展性和对不确定性和动态性的鲁棒性方面显示出了显著的改进[1]-[4]。这种改进在很大程度上归因于MARL中智能体之间固有的通信和协调，其中多个智能体同时在共享环境中进行交互并与其他智能体通信，学习和适应他们的策略。然而，智能体之间在MAS中如何以及要通信什么仍然是一个有待探索的问题。

代表性的例子包括学习使用神经网络生成数值信息的MARL框架，制定神经通信协议，以及学习针对性的临时通信。尽管MARL框架在各种应用中取得了不错的性能，但它们仍然不如人类专家。因此，考虑为什么不在MARL中利用人类知识和人类语言是合理的。由于自然语言处理（NLP）在多模态任务中展示了巨大的能力，语言条件的MARL成为一个有希望的研究问题。NLP几十年来一直是一个活跃的研究领域，许多著名的模型被提出用于语言建模，例如循环神经网络（RNN）[5]，[6]，长短期记忆网络（LSTM）[7]和变换器[8]。这些基础模型极大地提高了机器理解和生成人类语言的能力，为更复杂的应用奠定了基础。近年来，NLP与单智能体RL的整合导致了语言条件的RL框架的发展[9]-[11]，特别是大型语言模型（LLMs）[12]-[15]作为人工智能界的新星出现（见图1），并已成功应用于各个领域[16]-[18]。

预训练的LLMs包含有关世界的基本人类知识，并且可以轻松适应RL问题而无需重新训练。这种整合不仅利用了语言的语义丰富性，还允许根据语言输入动态调整智能体行为。特别是，LLM能够基于几个示例生成它以前从未见过的新信息。例如，在Reflexion[19]中，作者展示了LLM智能体能够在没有任何来自环境的奖励/反馈的情况下对其决策进行合理的反思。这些能力在多智能体系统中特别有价值，智能体必须根据通过语言传达的共享目标进行协调和合作。由于需要通信和协调，MARL问题比简单地将单个智能体的RL乘以智能体数量更为复杂。与传统的MARL不同，基于LLM的MARL可以利用语言线索促进智能体之间的通信和协作，进一步提高系统性能。例如，智能体可以使用共享语言来协商角色，协调行动或交换有关环境或其内部状态的信息，从而更有效地协调他们的客观目标。

在智能体必须处理模糊或不断变化的任务的复杂场景中，这种语言增强的协调变得至关重要，这需要持续的通信和相互理解。探索这些能力为设计更智能、更灵活的多智能体系统开辟了新的可能性，这些系统能够在不可预测的现实世界环境中运行。Guo等人[20]回顾了基于LLM的多智能体框架，但那篇论文的重点不是MARL。

与他们的论文不同，本文更侧重于试图合作完成一项任务的MAS。此外，还有几篇关于MARL主题的综述[21]-[23]和单智能体基于LLM的RL[24]，[25]，但它们都不是专门针对基于LLM的MARL的。因此，我们声称我们是最早提供基于LLM的MARL问题系统概述并提供潜在未来研究方向的人之一。本文的其余部分组织如下。我们首先介绍MARL问题，并在第二节提供传统的，即非基于LLM的MARL的简要概述，然后，我们将在第三节介绍基于LLM的单智能体RL，为基于LLM的MARL做准备。

II. 预备知识

在本节中，我们将首先介绍MARL问题（第II-A节）。然后，我们将简要讨论传统的非LLM基础的MARL（第II-B节）。为了为基于LLM的MARL做准备，我们将在第II-C节介绍基于LLM的单智能体RL。

A. MARL问题定义

MARL可以用去中心化的局部可观测马尔可夫决策过程（Dec-POMDP）[26]来建模，这是马尔可夫决策过程（MDP）的多智能体扩展。N个智能体的MDP由状态集合S中的s组成，描述了参与智能体的所有配置，动作集合A1，...，AN和观察集合O1，...，ON。每个智能体i有一个策略πi：Oi × Ai → [0, 1]，参数化为θi。我们用确定性策略表示为μi：Oi → Ai。环境将根据状态转移函数T：S × A1 × ... × AN → S生成下一个状态。每个智能体将从环境中接收奖励，作为状态和动作的函数ri：S × Ai → R，以及与状态相关的个体观察oi：S → Oi。每个智能体都试图最大化其总期望回报Ri = ∑T t=0 γtrt i，其中γ是折扣因子，T是总时间长度。

Dec-POMDP与普通MDP的一个关键区别是部分可观测性，即对于一个智能体来说，其他智能体的动作和随后的结果不是直接可观测的，从而增加了解决问题的难度。由于这种部分可观测性，单独的非协调学习框架将无法很好地工作。典型的深度MARL框架采用演员-评论家结构，演员被训练为根据观察结果输出动作，评论家输出一个分数来判断这些动作在长期视角中是否良好。

B. 传统MARL

为了解决Dec-POMDP问题，已经提出了许多框架。这些框架大致可以分为两类：学习合作和学习通信。学习协调：第一种方法，如QMIX[27]，QTRAN[28]，MADDPG[29]，MAPPO[30]等，假设通过集中训练和理想通信，智能体可以在集中训练期间学会相互合作；因此，在执行期间不需要通信。换句话说，这些方法期望智能体学会适应其他智能体的行为模式。这些方法也可以被分类为基于策略和基于价值的方法。基于策略的方法通常采用演员-评论家架构，其中演员被训练来做出决策，评论家近似长期回报并为演员提供反馈。基于价值的方法学习优化联合Q值，给定团队的观察和动作。在这种情况下经常发生的一个问题是信用分配问题，评论家需要确定每个智能体对性能的贡献。学习通信：在基于通信的方法中，智能体被赋予通过各种方式共享信息的能力，例如调整共享消息的内容[37]或优化通信网络的结构[38]。这种显式的智能体间通信促进了协调策略，并在条件和目标可能经常变化的动态环境中至关重要[39]，[40]。有效的通信使智能体能够形成联盟以实现共同目标，适应同伴的行动，并优化集体成果，提高系统在从合作操纵到竞争战略游戏等任务中的性能[37]。通信协议通常在训练期间学习，利用可微分的智能体间学习算法等先进技术，根据环境反馈改进通信模式[41]-[43]。此外，还提出了学习紧急通信协议/语言的框架[44]，[45]。这些框架鼓励智能体学习某种“语言”，这种语言可以被其他智能体理解，并编码某些信息。

C. 基于LLM的单智能体RL

由于LLM在各种任务中展示了其能力，因此已经提出了几种基于LLM的决策框架。这些框架不一定是RL框架，因为它们中的许多是开环的，即在决策过程中不使用来自环境的反馈/奖励。相反，许多框架只是利用LLM的泛化能力和它们包含的通用知识来解决问题。通常，在这些工作中，提供一些LLM预期如何解决问题的示例，LLM可以从这些示例推广到新问题。开环基于LLM的RL：在这些框架中，我们将总结一些重要贡献。Yao等人[46]提出了ReAct，其中LLM被提示生成“思考”来解决问题，给定观察结果，允许模型动态调整并根据不断变化的环境线索和任务需求完善其策略。基于ReAct，Shinn等人[19]提出了Reflexion，它使用少量的口头反馈来增强决策能力。Reflexion将任务环境中的交互反馈处理成文本摘要，然后用于增强模型的情节记忆。Prasad等人[47]提出了ADaPT，其中LLM学习通过简短的例子将任务分解为子任务。尽管这些方法在推理或基于文字的游戏中可以取得不错的性能，但它们受到LLM所拥有的知识的约束，可能对某些问题有偏见。更重要的是，环境最重要的信号之一——奖励，并没有被考虑。闭环基于LLM的RL：也有一些基于LLM的RL框架，它们结合了反馈以进行闭环控制。Paul等人[48]提出了Refiner，其中微调的LLM用于提供关于策略决策的反馈。Zhang等人[49]引入了一个框架，使用LLM的反馈来增强RL任务中的信用分配。他们的工作针对稀疏奖励环境，并利用LLM中可用的丰富领域知识来动态生成和完善奖励函数。为了提高样本效率，作者提出了顺序的、基于树的和移动目标反馈，促进了更有针对性探索，并减少了状态探索中的冗余。Yao等人[50]提出了Retroformer，其中冻结的LLM被用作策略，而另一个较小的LM被训练来根据奖励提供基于口头反馈的决策。Murthy等人[51]提出了REX，采用蒙特卡洛树搜索（MCTS）算法作为解决问题的基础。采用上置信界（UCB）技术指导智能体的探索。除了上述使用LLM作为RL策略的工作之外，还提出了在RL任务（例如机器人控制，例如PaLM-E[52]）上训练的多模态LLM和模型，用于将语言锚定到动作[53]，[54]。由于它们的参数规模，这些模型可以在几个机器人任务中实现不错的零样本性能。

III. 现有的基于LLM的MARL

尽管基于LLM的MARL框架尚未被广泛研究，但仍有一些工作集中在这一主题上。问题解决的MARL：黄等人[71]引入了γ-Bench，它包含多种多智能体游戏来评估这些模型。他们的工作包括对不同版本的GPT模型的详细分析，证明了GPT-4等新版本LLM在游戏能力上的系统性改进，以及使用CoT等推理技术增强这些模型的潜力。刘等人[55]提出了动态LLM-智能体网络（DyLAN），这是一个研究LLM-智能体协作能力进行复杂推理和代码生成任务的框架。与之前使用静态架构的方法不同，DyLAN根据实时性能和任务需求动态调整智能体之间的交互，包括推理时智能体选择和早期停止机制等功能。这使得DyLAN能够通过无监督评分指标——智能体重要性得分——提高计算效率，并通过优化个体智能体的贡献。Slumbers等人[59]通过集成集中式评论家架构并允许智能体之间使用自然语言通信，引入了功能对齐的多智能体（FAMA）框架。该框架通过在线微调过程使LLM与环境的功能需求对齐，调整LLM的预训练知识以更好地适应特定任务要求。此外，FAMA允许智能体之间使用自然语言进行直观的通信，使协调更加高效和易于人类理解。Chen等人[60]对由LLM驱动的多智能体系统中寻求共识的动态进行了研究。作者专注于智能体之间的谈判过程，每个智能体从独特的数值状态开始，通过谈判达成统一共识。他们还提供了有关不同因素，如智能体个性（固执与易受影响）、智能体数量和网络拓扑结构如何影响谈判和共识过程的见解。Li等人[61]探索了使用LLM生成通信消息和对环境及其他智能体信念的心智理论（ToM）建模。Hong等人[69]提出了MetaGPT，智能体在消息池中与所有其他智能体共享消息，智能体可以订阅与他们任务相关的信息。

表I: 强调多智能体协调的现有LLM用于MARL框架。

IV. 待解决的研究问题

尽管上述研究努力，语言条件的MARL仍然是一个未被充分探索的领域，有许多未被探索的方面。为了激发这个领域的更多研究，我们在本节提供了几个研究方向。具体来说，我们讨论了四个潜在的研究方向：i) 个性化合作（第IV-A节），ii) 语言支持的人类在/回路框架（第IV-B节），iii) 传统MARL和LLM共同设计（第IV-C节），以及 iv) MAS中的安全性和安全性（第IV-D节）。图2也更生动地展示了这些研究思路。

A. 个性化合作

以前的工作[60]，[75]表明，在MARL框架中不同的个性可以产生有希望的结果。这个想法可以自然地扩展到语言条件的MARL框架。在这些框架中，智能体通过他们被赋予的个性来区分。例如，具有“好奇”个性的智能体将倾向于探索环境，而具有“保守”个性的智能体将倾向于留在安全区域。具有不同个性组合的智能体团队通常比具有相同个性的团队表现更好。在传统的MARL框架中，这些个性被编码在智能体的模型参数中，即他们模型的权重。然而，使用LLM作为智能体，个性可以通过提示分配给智能体，在提示中将提供有关智能体个性的叙述。

语言条件的MARL与个性化智能体的另一个潜在优势是能够更有效地处理冲突和协商解决方案。智能体可以被训练以理解和生成考虑其他智能体观点和目标的语言响应，促进了一种模仿人类互动的谈判过程。这种能力在智能体必须共享资源或决定影响集体结果的联合行动的场景中特别有用。

然而，在智能体中实施这些个性化的语言行为面临几个挑战。主要关注是确保语言模型不会延续或放大可能导致不公平或低效结果的不良偏见。此外，训练这些模型的复杂性增加了，因为它们不仅必须理解并生成适当的响应，还必须根据互动的不断发展的上下文适应他们的语言风格。

未来的研究可以集中在开发可以有效地将个性驱动的语言模型整合到MARL系统中的框架上。这种整合涉及创建具有记忆功能的强大的提示，这些提示编码来自广泛的交互场景中过去的经验，允许智能体从他们的成功和失败中学习。此外，评估这些系统将需要新的指标，这些指标不仅可以评估任务执行的效果，还可以评估智能体之间通信的适当性和有效性。

另一个研究方向是探索竞争性智能体而不是合作性智能体。然而，这里的竞争应该是良性的，意味着智能体竞争是为了实现相同的目标。通过解决这些挑战，具有多样化智能体个性的语言条件的MARL有潜力推进人工智能领域。

B. 语言支持的人类在/回路框架

语言条件的MARL框架的一个直接优势是可能将人类纳入或置于回路中。例如，人类在回路框架[76]-[78]涉及人类作为可以生成影响环境的行动的智能体，而人类在回路框架[79]则将人类视为没有直接参与决策过程的监督者。在人类在回路设置中，人类积极参与学习过程，通常提供纠正性反馈或奖励以实时塑造智能体行为。这种直接互动有助于提炼智能体的行动和策略，使其更符合类似人类的推理和道德标准。例如，人类可以引导智能体远离其学习过程中可能不会立即通过算法强化信号显现的潜在陷阱。另一方面，人类在回路框架在监督角色上发挥关键作用。在这里，人类监控系统的性能，只在必要时介入。这种方法在自主操作更受偏好但需要人类监督以确保安全和符合监管标准的应用中特别有价值。例如，在自动驾驶中，虽然系统可以处理大多数驾驶任务，但人类监督者可能只在复杂或危险的道路条件下介入，确保系统在安全限制内运行而不需要不断的人类控制。语言条件的MARL中的这两种人类角色都可以从自然语言的整合中大大受益。语言作为一种多功能接口，可以促进人类与智能体之间更清晰、更直观的通信。智能体可以用人类易懂的语言报告其状态、解释其决策，甚至在需要澄清时请求说明，提高人类干预的有效性。此外，使用语言可以促进智能体之间的知识转移，允许他们以可理解的格式分享见解或策略。在涉及具有不同角色的多个智能体的场景中，语言可以帮助保持团队的一致性和统一目的，指导经验较少的智能体完成由更有经验的智能体或甚至人类监督者制定的复杂任务或策略。未来的研究可以探索优化人类监督者和智能体之间的这些互动，可能通过开发能够理解和生成更具情境意识、特定情境的对话的高级语言模型。此外，确保基于语言的通信不仅提供信息，而且及时和可操作，对于这些系统在现实世界应用中的实用部署至关重要。自然语言促进的自动化和人类监督之间的这种平衡承诺增强多智能体系统的鲁棒性和可靠性，推动自动化系统能够实现的界限，同时确保它们在安全和道德准则下运行。

C. 传统MARL和LLM共同设计

由于LLM通常具有较大的尺寸，尤其是那些预训练模型，在机器人硬件上进行板上推理是不切实际的。实现资源高效计算的一个流行方法是通过参数高效微调（PEFT）技术[80]-[83]结合量化。然而，这种方法仍然需要通过大型LLM网络进行推理，这对于小型机器人来说是不切实际的。要实现这一点，我们设想了一个传统MARL策略和LM模型的共同设计框架。这种系统的典型设计可能是使用LLM模型作为集中式评论家来指导演员的训练。这种设计遵循了第II-B节介绍的CTDE方案，即在执行期间将评论家移除。为了在执行期间利用通信，我们可以将有关通信的知识从LLM中提取到可以板上执行的较小模型中。这方面的一个潜在发展是改进蒸馏过程，目的是将知识从LLM转移到更适合部署在功能较弱的硬件上的更紧凑的模型，如机器人或物联网（IoT）设备。这方面的一个有希望的发展方向是上下文蒸馏[84]，[85]，其中教师模型是一个具有预定义上下文的LLM。例如，对于控制仓库机器人，上下文可以细化为告诉LLM避免人员和碰撞。通过专注于LLM在训练阶段学习到的通信和决策所需的基本特征，较小的模型可以有效地执行复杂任务，计算开销只有一小部分。此外，为了促进智能体在执行期间进行有效通信，可以设计专门的通信协议。这些协议将使用蒸馏模型确保关键信息，如LLM在训练阶段所理解和处理的那样，在智能体之间有效传达。这种方法不仅节省带宽，还优化了实时决策过程，允许根据操作环境和智能体状态进行动态调整。此外，共同设计框架可以通过整合自适应机制得到增强，允许MARL系统根据操作环境的反馈重新校准其策略。这种自适应系统可以动态调整蒸馏模型的压缩水平或根据任务的复杂性和当时可用的计算能力修改通信协议。这种灵活性在环境条件变化迅速或不可预测的情况下特别有用，需要智能体集体迅速响应。此外，这种共同设计框架的实施将从开发专门针对压缩模型执行的专用硬件中大大受益。这种硬件可以优化神经网络操作的执行，可能以节能的方式，这对于移动或嵌入式系统至关重要。

D. 多智能体系统中的安全性和安全性

确保MAS的安全性和安全性至关重要，特别是随着这些系统越来越多地部署在多样化和潜在的高风险环境中。将语言模型集成到MARL中引入了独特的挑战和漏洞，从操纵智能体通信到利用模型偏见。许多机器人操作具有连续动作空间，每个智能体策略的输出是一组连续值。与离散动作空间不同，后者可以被重新表述为多项选择问题，并通过向LLM提出多项选择问题来解决，连续动作空间更棘手，特别是在高风险环境中，例如操作机器人。现有的方法用新层替换了LLM的最后几层，这些新层将观察到的语言映射到连续动作空间。然而，这种方法需要在所需环境中训练新层，这可能是不可访问的。因此，探索将LLM集成到在连续动作空间中运行的机器人的控制回路中，而无需对LLM进行大量重新训练或修改的替代方法是有希望的。除了动作安全外，MAS中的安全性和对潜在攻击的安全性也至关重要。实现安全的一种方式是通过主动措施。这包括开发安全的智能体间通信协议，以防止窃听或注入可能导致决策受到破坏的恶意数据。通信加密可以是这方面的一个基本方面，确保即使数据传输被拦截，信息仍然受到保护。此外，保护语言模型训练过程免受对抗性攻击至关重要。对抗性训练涉及在训练阶段将系统暴露于广泛的攻击向量，可以帮助模型在部署中学习抵抗或减轻这些攻击。此外，可以采用输入验证技术来过滤可能有害或误导的输入，这些输入可能导致系统行为不可预测。这在智能体与受控环境之外的人类或系统交互，并暴露于更广泛的语言输入和行为的场景中尤其重要。尽管有最好的主动防御，系统在部署后仍可能遇到不可预见的漏洞。因此，需要反应性策略来快速解决任何违规或故障。这可以涉及实时监控智能体行为和通信，以检测可能表明安全漏洞或安全协议失败的异常。一旦检测到异常，系统应该能够隔离受影响的智能体，并将它们的状态回滚到安全配置。

V. 结论

在这篇文章中，我们提供了基于传统非大型语言模型（LLM）的多智能体强化学习（MARL）、基于LLM的单智能体RL和现有的基于LLM的MARL框架的简要概述。这些工作为我们在后面部分讨论的新思想铺平了道路。具体来说，我们讨论了从多智能体个性到基于LLM的多智能体系统（MAS）中的安全性和安全性等潜在研究方向。尽管正在研究基于LLM的MARL，该领域仍有待探索，并且由于LLM的巨大能力和它们在上下文中的可解释性质，具有重要的潜力。有了LLM，设计MARL框架变得更加类似于模拟动物或甚至人类的群体学习过程，其中知识通过自然语言进行转移或交换。我们希望，通过这封信，能够启发更多的研究工作，并将多智能体智能的边界推向更远。

53AI，企业落地大模型首选服务商

产品：场景落地咨询+大模型应用平台+行业解决方案

承诺：免费场景POC验证，效果验证后签署服务协议。零风险落地应用大模型，已交付160+中大型企业