我要投稿

大模型在机器人领域的应用：机遇、挑战与前景

发布日期：2024-08-19 18:27:38 浏览次数： 2949 作者：AIRoobt

Large language models for robotics: Opportunities, challenges, and perspectives

大型语言模型在机器人领域的应用：机遇、挑战与前景

摘要: 大型语言模型（LLMs）已经显著扩展，并逐渐融入各个领域。在机器人任务规划中，LLMs利用其先进的推理和语言理解能力，基于自然语言指令制定精准高效的行动计划。然而，对于需要与复杂环境交互的具体任务，仅限于文本的LLMs在与机器人视觉感知的兼容性方面往往面临挑战。本研究全面概述了LLMs和多模态LLMs在各种机器人任务中的新兴应用。此外，我们提出了一个利用多模态GPT-4V增强具体任务规划的框架，通过结合自然语言指令和机器人视觉感知，提升机器人在具体任务中的表现。基于多样化数据集的结果表明，GPT-4V有效提升了机器人在具体任务中的表现。这项对LLMs和多模态LLMs在多种机器人任务中的广泛调查和评估丰富了对LLM为中心的具体现智能的理解，并为弥合人-机-环境交互中的差距提供了前瞻性见解。

I. 介绍

随着预训练模型在模型规模和数据量上的扩展，一些大型预训练模型在一系列复杂任务中展现出了显著的能力。大型语言模型（LLMs）因其出色的上下文推理能力在各个领域得到了广泛关注。这种新兴的能力使人工智能算法以前所未有的方式发挥作用，重新塑造了人们利用人工智能算法的方式，并促使人们重新评估通用人工智能（AGI）的可能性。

随着LLMs的快速发展，指令微调和对齐微调已经成为将其适配于特定目标的主要方法。在自然语言处理（NLP）领域，LLMs在一定程度上可以作为一种通用的语言相关任务的解决方案。这些基于Transformer的大型模型在多个领域中取得了非凡的成就，深刻地改变了人工智能的最新发展现状。研究范式也转向了利用这些模型来解决子领域特定的问题。在计算机视觉（CV）领域，研究人员也在开发类似于GPT-4和Gemini的大型模型，这些模型结合了视觉和语言信息，从而支持多模态输入。这种增强LLMs的策略不仅提高了它们在下游任务中的表现，还为机器人技术的发展提供了重要的指导，确保其与人类价值观和偏好的对齐。这种方法已经在许多领域广泛采用，甚至在卷积神经网络（CNN）一直主导的领域也是如此。

LLMs处理和内化大量文本数据的能力为增强机器的理解和自然语言分析能力提供了前所未有的潜力。这种能力扩展到理解如手册和技术指南等文档，并将这些知识应用于进行连贯、准确且符合人类需求的对话中。通过对话，自然语言指令从文本提示被转化为机器可理解的代码，从而触发相应的动作，使机器人在适应各种用户命令方面更加灵活。将现实世界的传感器模态整合到语言模型中，有助于建立词汇与感知之间的联系，使其能够应用于各种具体任务。然而，纯文本的LLMs缺乏对物理世界的经验性接触和观察的实际结果，这使得它们在特定环境中的决策应用上面临挑战。因此，将多模态整合到LLMs中对于有效执行机器人任务至关重要。此外，机器人技术领域呈现出更微妙的任务变体，不同于NLP和CV领域可以利用来自互联网的大量数据集，获取用于机器人交互的大规模、多样化的数据集非常困难。这些数据集通常要么集中于单一环境和物体，要么强调特定任务领域，从而导致它们之间存在显著差异。这种复杂性在将LLMs与机器人技术结合时提出了更大的挑战。

如何克服机器人技术带来的挑战并利用LLMs在其他领域的成就来推动机器人领域的发展，是本综述中所探讨的核心问题。在本文中，工作的贡献可以总结为以下四个主要方面：

- 我们细致地调查和综合了现有的LLM在机器人领域的文献，探讨了在三个不同任务类别（规划、操作、推理）中的最新进展。

- 我们总结了LLMs为机器人领域提供的主要技术方法，探讨了训练通用机器人策略的潜力，并为该领域的研究人员提供了基础性的综述。

- 我们评估了多模态GPT-4V在不同环境和场景下的机器人任务规划的有效性。

- 我们总结了调查的主要发现，讨论了未来需要解决的重大挑战，并提出了前瞻性的观点。

图1. 提议的GPT-4V增强具体任务规划的框架。我们使用视频数据的初始帧及其相应的文本指令作为输入。我们的框架利用GPT-4V将指令分解为一系列任务计划，并从预定义的动作池中选择相应的表示。同时，我们可以分析与指令相关的目标物体以及指令前后环境的变化。最后，我们使用GPT-4V将生成的任务计划与真实计划进行比较和评分。

（注释：图1展示了一个基于GPT-4V的增强具体任务规划框架的工作流程。在这个框架中，视频数据的初始帧及其相应的文本指令被用作输入。GPT-4V利用这些输入生成任务计划，并从预定义的动作池中选择合适的动作序列来完成任务。框架的工作流程可以总结如下：

1. 输入：系统接收视频的第一帧和相应的自然语言指令。这些输入提供了任务的环境和目标信息。

2. 任务分解：GPT-4V根据输入的自然语言指令，将任务分解为一系列具体的步骤或动作。这些步骤包括从动作池中选择合适的动作，并且如果需要，还可以生成新的动作。

3. 动作选择与序列化：GPT-4V根据分解的任务步骤，选择和排序相应的动作，以形成一个完整的任务计划。这些动作被组织成一个连贯的序列，指导机器人执行任务。

4. 环境和任务评估：在任务计划生成后，GPT-4V会通过“环境状态”对任务计划进行评估。这包括评估任务计划与真实视频演示的匹配程度，并根据计划与视频的一致性进行评分。GPT-4V还会对任务执行后的环境变化进行理解和反馈。

5. 输出：最终的任务计划作为输出，包括一个按步骤分解的行动方案，以及对任务计划和环境状态的评估和评分。

图1整体上展示了GPT-4V如何在多模态环境中利用视觉和语言信息来生成并评估复杂任务的执行计划。这个框架展示了GPT-4V在处理机器人任务规划时的高效性和灵活性，尤其是在结合视觉和语言提示方面的能力。）

II. 相关工作

A. 基于LLM的机器人技术

基于大型语言模型（LLMs）的机器人研究取得了显著进展。这些模型表现出了卓越的自然语言理解和常识推理能力，大大增强了机器人理解上下文和执行指令的能力。目前的研究重点在于利用LLMs解析复杂的上下文和指令，包括解决模糊性、消除歧义以及理解隐含信息。该领域的一个关键进展是视觉语言模型的发展，这些模型显著提高了诸如视觉问答和图像字幕生成等任务的表现。这些进步大大提升了机器人在物理世界中的推理能力，特别是在复杂命令导航方面。通过视觉语言处理系统，机器人能够理解图像内容并将其与相关的语言信息（如图像描述和命令执行）结合起来。这种多模态信息处理同样适用于视听一体化。

另一个LLM的重要进展是在人与机器人交互中的应用，通过互动学习过程更好地符合人类的需求和偏好。例如，通过将强化学习与人类反馈结合，机器人能够不断改进其任务执行，解决大模型应用中遇到的语义模糊问题。通过结合人类的指导与大型语言模型，机器人能够更精确地调整指令，从而更好地实现自主学习和环境适应，以实现更精确和针对性的控制。机器人还可以通过互动学习用户的行为、偏好和需求，从而提供更个性化和定制化的交互体验。这些进展不仅增强了机器人技术的实用性，还为未来的人机交互开辟了新的可能性。

B. 使用LLMs的多模态任务规划

在LLMs领域中的多模态任务规划构成了一种人工智能学科的复杂交叉，结合了不同的数据模态——如文本、视觉和听觉输入——以促进更全面和细致的人工智能驱动分析。这种跨学科的方法超越了LLMs传统上以文本理解和生成为主的界限，开启了一个时代，这些模型能够在统一的情况下解释、关联和处理多个数据流。在这种背景下，LLM的角色从简单的语言处理演变为一种更具整合功能的角色，能够合成和回应复杂的数据交互。

在LLMs的多模态任务规划领域，最近的进展以“内部独白”和“SayCan”等项目为代表，展示了该领域日益复杂和精致的发展。“内部独白”的方法代表了这一领域的重大飞跃，因为它整合了来自环境的多模态反馈源。这种整合使得任务规划更加可靠和具有上下文意识，将不同的感官输入协调起来，以对AI的周围环境形成更一致的理解。同样，“SayCan”框架为LLM应用引入了一个新的维度。该系统将LLMs作为模型的“手和眼”，生成最佳的长时间任务指令，并有效地评估当前场景下指令的可执行性。这一方法不仅增强了AI理解和与其直接环境交互的能力，还利用LLMs的细致理解来规划和执行复杂的连续动作。

将这些先进技术整合到“内部独白”和“SayCan”中，并应用于基于LLMs的多模态任务规划中，标志着向创建更能感知多种数据流并能够将这些流综合为可操作智能的AI系统迈出了重要的一步。这一进展指向了一个未来，在这个未来中，AI能够以更加动态、上下文感知和自主的方式导航并与现实世界互动，推动了AI驱动创新和跨学科融合的可能性边界。

III. 机器人任务的范围

A. 规划

1) 自然语言理解：在机器人规划中，大型语言模型（LLMs）因其先进的自然语言理解能力而表现出色。它们将自然语言指令转化为可执行的机器人行动序列，这是机器人规划的一个关键方面。本研究表明，LLMs即使在没有视觉输入的情况下，也能仅基于语言指令生成准确的行动序列。然而，当加入少量视觉信息时，它们的表现会显著提升，从而生成更精确的视觉语义计划。这些计划将高层次的自然语言指令转化为虚拟代理执行复杂任务的可操作指导。这一能力凸显了LLMs整合多模态信息的潜力，从而提升其理解能力。它还展示了LLMs解释和整合来自不同模态的信息的能力，从而形成对任务更全面的理解。此外，研究还进一步确认了LLMs在生成自然语言理解的行动序列方面的有效性。LLMs在同步解释自然语言命令与物理环境方面也显示出巨大潜力。采用“基于环境的解码”方法，它们能够生成与物理模型概率相一致的行为序列，展示了这种方法在机器人规划任务中的有效性。

复杂顺序任务规划的研究强调了LLMs能力的显著进展。Text2Motion的研究表明，LLMs不仅擅长处理语言信息，还能够解决技能序列中的依赖关系。这是通过几何上可行的规划实现的，标志着在解释抽象指令和理解复杂任务结构方面的重大进展。此外，LLM-Planner研究通过将LLMs与传统规划器结合，增强了LLMs在机器人规划中的自然语言理解能力。这种协同作用展示了如何利用LLMs的自然语言处理（NLP）能力来提高规划任务的效率和精度。此外，LLM+P利用经典规划器的能力，通过采用规划域定义语言（PDDL）和问题提示，为LLMs创建特定任务的问题文件。这种整合显著增强了LLMs在处理长期规划任务中的效果。同样，SayPlan通过整合经典路径规划器解决了规划时间跨度的问题。通过这样做，SayPlan能够将从抽象和自然语言指令中获得的大规模、长时间任务计划落实，并使移动操作机器人成功执行这些任务。此外，LLMs在作为搜索算法中的启发式策略和常识知识库方面也显示出潜力。这种双重角色不仅增强了这些算法中的推理能力，还帮助预测可能的结果。这样的方法充分利用了LLMs的潜力，通过其先进的推理能力有效地规划复杂任务。这种双重应用突显了大型语言模型在任务规划和问题解决方面的广泛且多功能的潜力。

LLMs的研究展示了其在解析和理解自然语言方面的卓越能力。这种能力不仅仅停留在简单的文本匹配，还扩展到对任务目的和上下文的深刻语义理解。LLMs的一个关键特点是将其理解的指令转化为可执行的机器人行动序列，这在机器人任务规划中至关重要。LLMs显著提升了指令生成的质量和适应性，使得生成的行动序列既能考虑上下文又能适应特定环境。这些模型在处理各种任务规划复杂性和类型方面表现出多样性，从简单的物理交互到复杂的长期序列规划。这些研究强调了LLMs作为独立决策者以及与其他模态和规划算法合作的潜力。这种合作在解释自然语言和推进机器人规划方面至关重要。随着研究的进展，预计LLMs将在机器人和自动化系统领域发挥越来越重要的作用。

2) 复杂任务推理和决策：在复杂任务推理和决策领域，由LLMs赋能的机器人表现出了卓越的能力。这些基于LLMs的机器人规划任务已经远远超出了单纯的文本生成和语言理解的范畴。最新的研究表明，语言模型在处理复杂任务、进行逻辑推理、做出明智决策和参与互动学习方面展现了巨大的潜力。这些突破不仅拓展了我们对基于LLMs的机器人规划潜力的理解，也为创新的实际应用打开了大门。

在探索预训练语言模型（PLMs）在互动决策中的应用时，研究展示了如何将目标和观察转化为嵌入序列，并用PLMs初始化网络。这种策略的泛化能力在多变量环境和监督模态中尤其有效。多模态领域的一个重要进展是LM-Nav系统的发展。该系统基于PLMs，集成了语言、视觉和行动模型，通过高层次的自然语言命令引导机器人导航。显著的是，它通过融合预训练的视觉导航、图像-语言关联和语言理解模型，减少了对代价高昂的轨迹注释监督的依赖。

针对特定环境中的LLMs，研究人员考察了它们在自然语言反馈和复杂任务规划中的推理能力。这种能力对于遵循高层次的任务指令并增强模型在现实世界中的适用性至关重要。为了解决自然语言理解和决策中的一致性容错问题，创新性的ReAct模型克服了在交互环境中语言推理的先前局限性。它解决了诸如幻觉生成和错误信息传播等挑战。通过利用LLMs的潜力来维持工作记忆和抽象概念化高层目标，ReAct模型在各种任务中实现了显著的性能提升。同时，为了解决在机器人领域应用LLMs时产生的自信幻觉预测问题，KnowNo模型为任务完成提供了统计保证，同时减少了在复杂多步骤规划场景中对人工帮助的需求。值得注意的是，KnowNo无需微调模型即可无缝集成LLMs，提供了一种轻量级且有前途的模型不确定性处理方法。这种方法与基础模型的不断演进能力相吻合，提供了可扩展的解决方案。

此外，还提出了一种使用预设错误提示的策略，使LLMs能够提取可执行的计划。这种方法为任务执行中的代理独立性和适应性提供了新的视角。在多代理协作方面，将语言模型与行动代理集成的探索也在不断增加。通过将LLMs与在特定环境中执行任务的代理配对，建立了一个由规划者、执行者和报告者组成的系统。这种安排显著提高了复杂任务中的推理和执行效率。

LLMs的研究正在呈现一个显著的趋势：这些模型越来越擅长理解和执行复杂任务，并且与现实世界的情境紧密对接。这一进展不仅彰显了预训练模型的适应性和多功能性，也预示了下一代AI的到来。随着这些技术的发展，我们预计会出现一波创新应用，准备颠覆各个行业。复杂任务中LLMs的强大语言理解和生成能力对于推理和决策过程的复杂性起到了重要作用。该领域的每一项研究都探讨了LLMs在复杂认知功能中的潜力。许多模型采用自监督学习，一些还结合微调以更好地与特定任务对齐。这种方法使得LLMs在下游任务辅助推理中表现出色，从而做出更精确和定制化的决策。

尽管LLMs在复杂推理和决策中的应用广泛，但具体的技术和方法有所不同，特别是在任务处理、学习策略和反馈机制方面。这些模型在家居自动化、机器人导航和任务规划等现实世界的应用中展示了它们广泛且不断发展的实用性。

3) 人机交互：在人机交互领域，具备通用人工智能（AGI）语言模型的高级推理能力使机器人具备了显著的泛化能力，使其能够适应新环境中的新任务规划。此外，LLMs的自然语言理解界面促进了人与机器人之间的沟通，为人机交互开辟了新的可能性。大量研究强调了LLMs在支持智能任务规划方面的进展，这反过来又提升了多智能体协作通信的效率。研究表明，使用自然语言来增强多智能体合作的效率是一种有效的方法。

一个值得注意的例子是OpenAI的ChatGPT，通过严格的实验评估了其在机器人应用中的能力。研究结果表明，ChatGPT在逻辑推理、几何推理、数学推理以及空中导航、操作和控制具身代理等复杂任务中表现出色。它通过自由形式的对话、解析XML标签以及合成代码等技术实现了这一点。此外，ChatGPT允许用户通过自然语言命令进行交互，这为开发与人类自然交互的创新机器人系统提供了重要指导和见解。

类似地，提出了一个利用大规模语言模型进行协作具身智能的框架。该框架使语言模型能够用于高效的规划和沟通，促进多种智能体与人类协作，解决复杂任务。实验结果表明，这种方法在该领域显著优于传统方法。

B. 操作

1) 自然语言理解：在机器人控制领域，LLMs的自然语言理解能力可以帮助机器人进行常识性分析。例如，LLM-GROP展示了如何从LLM中提取语义信息，并将其用于在复杂环境中响应自然语言命令时，作为任务和运动规划的一部分，做出关于物体放置的常识性、语义有效的决策。该研究提出了一个将语言置于智能体核心的框架。通过利用这些模型中包含的先验知识，可以设计出能够在现实世界中直接解决复杂任务的更好的机器人代理。通过一系列实验，证明了该框架如何利用底层模型的知识和功能，以更高的效率和灵活性解决各种问题。同时，研究引入了一种新方法，即语言条件碰撞函数（LACO），该方法仅使用单视图图像、语言提示和机器人配置来学习碰撞函数。LACO预测机器人和环境之间的碰撞，从而实现灵活的条件路径规划。

除了自然语言理解能力之外，LLMs的强大推理能力也起到了显著作用。例如，在VIMA的研究中，引入了一种新的多模态提示配方，将不同的机器人操作任务转化为统一的序列建模问题，并在多模态任务和系统泛化评估协议中实现。实验表明，VIMA能够通过单一模型解决视觉目标实现、一次性视频模仿和新概念基础等任务，具有强大的模型扩展性和零样本泛化能力。同样，TIP提出了一种文本-图像提示（Text-Image Cueing），这是一个将LLMs与多模态生成模型连接起来，以生成合理的多模态程序计划的双模提示框架。

除了提示方法外，基于预训练语言模型微调下游任务也是机器人控制领域的一种常见方法。例如，有研究表明，预训练的视觉语言表示可以有效提高现有探索方法的样本效率。R3M研究了如何利用不同人类视频数据上的预训练视觉表示来实现下游机器人操作任务的数据高效学习。LIV模型在一个大型泛化的人类视频数据集上训练，并在一个小型机器人数据集上进行微调，能够在三种不同的评估设置中超越最先进的方法，并成功执行现实世界的机器人任务。

这一系列研究共同说明了LLMs和自然语言理解技术在提升机器人智能方面的重要作用，特别是在理解和执行复杂的基于语言的任务中。这些研究的一个关键点是模型泛化的重要性以及在各种领域应用这些模型的能力。虽然每项研究都分享了这一共同主题，但它们在具体的关注点和应用方法上有所不同。例如，LLM-GROP专注于语义信息的提取和应用，而VIMA和TIP则集中于无需先例的多模态处理和学习。此外，微调预训练语言模型的方法旨在提高应用效率和特定任务的优化。总体而言，这些研究表明，将复杂的自然语言处理技术与机器学习策略相结合，可以显著提高机器人系统的效率，特别是在理解和执行复杂任务的能力方面。这一进展是实现机器人操作更高智能和自主性的关键一步。

2) 互动策略：在互动策略领域，TEXT2REWARD框架引入了一种创新方法，利用LLMs生成互动奖励代码。该方法自动生成密集的奖励代码，增强了强化学习。此外，通过利用大型语言模型来定义可优化的奖励参数，以完成各种机器人任务，高层语言指令或修正与低层机器人动作之间的差距得到了有效弥合。由语言模型生成的奖励作为中间接口，促进了高层指令与低层机器人动作之间的无缝通信与协调。

VoxPoser提出了一个多功能的机器人操作框架，能够直接从LLMs中提取可操作性和约束条件。这种方法显著增强了机器人对开放式指令和多样化物体的适应能力。通过将LLMs与视觉语言模型相结合，并利用在线互动，VoxPoser能够高效学习与复杂任务动态模型的交互。LLMs的应用还延伸到了人机交互领域。LILAC系统通过一个可扩展的、基于语言驱动的人机交互机制体现了这一点。它将自然语言对话转化为低维控制空间中的可操作指令，使机器人指导更加精准和用户友好。重要的是，每次用户修正都会细化这个控制空间，使指令越来越精确。InstructRL提出了另一个旨在增强人类与AI合作的创新框架。该框架侧重于训练强化学习代理理解和执行人类提供的自然语言指令。该系统利用LLMs根据这些指令制定初始策略，引导强化学习代理在协调中实现最佳平衡。

最后，对于基于语言的人机界面，开发了一种新颖、灵活的接口LILAC，它允许用户使用文本输入和场景图像来改变机器人轨迹。该系统将预训练的语言和图像模型（如BERT和CLIP）结合起来，使用Transformer编码器和解码器来操作3D和速度空间中的机器人轨迹。该方法在模拟环境中证明了其有效性，并通过现实世界的应用展示了其实用性。

所有这些技术和方法在不同程度上依赖于先进的语言建模，以增强人机交互和机器人控制。它们共同强调了LLMs在解释和执行人类意图方面的关键作用。每种方法的目标都是提高机器人的适应性和灵活性，使其能够更有效地处理各种任务和环境。具体而言，TEXT2REWARD侧重于生成和优化奖励代码，这提高了强化学习策略的有效性。相反，VoxPoser则专注于从LLMs中提取操作变量和约束条件。与此同时，LILAC和InstructRL采用了不同的方法来解释和执行自然语言指令。LILAC优先将对话映射到控制空间，而InstructRL则专注于训练强化学习代理理解和执行自然语言指令。此外，最后讨论的基于语言的人机交互研究探讨了如何直接从文本和图像中提取用户意图，并将其应用于各种机器人平台。这一方面使其区别于其他可能未包含此功能的方法。总体而言，这些研究标志着将LLMs技术集成到机器人领域的重大进展。尽管它们的应用领域和方法各有侧重，但它们共同展示了在人工智能创新方面的潜力。此外，它们为未来在人机交互方面的探索铺平了道路。

3) 模块化方法：机器人控制领域的最新进展强调了模块化方法，允许创建更复杂和功能丰富的机器人系统。这一趋势的关键方面在最近的研究中得到了突出体现。PROGRAMPORT提出了一个基于程序的模块化框架，专注于机器人操作。它通过将自然语言的语义结构转化为编程元素来解释和执行语言概念。该框架包括在学习通用视觉概念和特定任务操作策略方面表现卓越的神经模块。这种结构化方法显著增强了视觉基础和操作策略的学习能力，提高了对未见样本和合成环境的泛化能力。

接下来，研究人员探索了利用LLMs加速机器人系统中策略适应的可能性，特别是在遇到新工具时。通过生成几何形状和描述性工具模型，然后将其转化为向量表示，LLMs促进了快速适应。这种语言信息与元学习的结合在适应不熟悉的工具方面显示出了显著的性能提升。

此外，将基于ViLD和CLIP的视觉语言模型NLMap与SayCan框架结合，带来了更灵活的场景表示。这种结合在处理开放世界场景中的自然语言指令时，特别是在长期规划中，效果尤为显著。NLMap增强了基于LLMs的规划器理解其环境的能力。

“Scaling Up and Distilling Down”框架结合了LLMs的优势、基于采样的规划器和策略学习。它自动生成、标记和提取丰富的机器人探索经验，形成了一个多任务策略，不仅继承了长期行为和强大的操作技能，还在训练分布之外的场景中表现出更好的性能。

MetaMorph引入了一种基于Transformer的方法，用于学习适用于广泛模块化机器人设计空间的通用控制器。这种方法使得机器人形态可以作为Transformer模型的输出。通过在多样化的形态上进行预训练，通过这种方法生成的策略展示了对新形态和任务的广泛泛化能力。这展示了机器人领域中广泛预训练和微调的潜力，类似于视觉和语言领域的发展。

在这些研究中，都采用了模块化方法，增强了系统对新任务和环境的灵活性和适应性。这些研究广泛利用了深度学习技术，特别是与LLMs的协同作用，以增强机器人系统的理解和决策能力。此外，这些研究的一个重要焦点是自然语言处理（NLP）的应用。无论是通过直接解释语言指令，还是通过语言丰富的学习和适应过程，都能明显看出这一点。主要目标是提高机器人在新环境和任务中快速泛化和适应的能力。虽然所有研究都采用了深度学习和LLMs，但它们的具体实现和应用各有不同。一些研究集中于语言描述和理解，另一些则探索了视觉和语言的融合。研究目标也有所不同，从适应新工具到长期战略规划，再到多态机器人控制。尽管技术方法、应用领域和目标任务各不相同，每项研究都对推进机器人系统的智能化和适应能力做出了显著贡献。

C. 推理

1) 自然语言理解：在机器人推理任务领域，基于自然语言理解的LLMs作为重要的知识库，提供了对各种任务至关重要的常识性见解。大量研究表明，LLMs能够有效地模拟类似人类的状态和行为，特别是在研究机器人执行家庭清洁功能时尤为相关。这种方法不同于传统方法，后者通常需要昂贵的数据收集和模型训练。相反，LLMs利用现成的方法在机器人领域进行泛化，并得益于它们通过广泛的文本数据分析所培养的强大总结能力。此外，LLMs的常识性推理和代码理解能力促进了机器人与物理世界之间的联系。例如，Progprompt通过在LLMs中引入编程语言特性，已被证明能够提高任务性能。这种方法不仅直观，而且足够灵活，能够适应新场景、代理和任务，包括实际的机器人部署。同时，GIRAF利用大型语言模型的力量，更灵活地解释手势和语言命令，从而准确推断人类意图，并对手势含义进行情境化处理，以实现更有效的人机协作。

该领域的一个创新发展是Cap（Code as Policies），它倡导为机器人生成以语言模型为中心的程序。这些程序可以适应机器人操作栈的特定层次：解释自然语言命令、处理感知数据，以及为原始语言控制参数化低维输入。这种方法的基本原理是，分层代码生成有助于创建更复杂的代码，从而推动这一领域的前沿发展。

家庭清洁应用和Cap中的以机器人为中心的语言模型生成程序都突显了LLMs在提供常识性知识和解释自然语言指令方面的优势。传统的机器人技术通常需要大量的数据收集和专业的模型训练。相比之下，LLMs通过利用其在文本数据上广泛的训练来减轻这一需求。LLMs的代码理解和生成能力尤其关键，使机器人能够更有效地与物理世界交互并执行复杂任务。然而，这些应用的重点有所不同：家庭清洁功能侧重于日常任务和环境适应性，而Cap则侧重于通过语言模型生成程序（LMPs）编程和控制机器人更技术性的行为。

总结而言，将LLMs集成到机器人推理任务中，凸显了它们在自然语言理解、常识知识提供、代码理解和生成方面的显著能力。这些特性不仅减轻了传统机器人技术中通常伴随的数据收集和模型训练负担，还增强了机器人泛化和灵活性。通过适当的训练和调整，LLMs可以应用于各种场景和任务，展示了它们在机器人和人工智能未来中的巨大潜力和广泛适用性。

2) 复杂任务推理和决策：在复杂任务推理和决策领域，各种研究利用LLMs的推理能力来增强特定下游任务的精细化。例如，SayCan利用LLMs中嵌入的广泛知识与强化学习相结合，用于具体化任务。这种方法涉及使用强化学习来发现个体技能价值函数的见解，然后使用这些技能的文本标签作为潜在响应，而LLM则为任务完成提供整体语义指导。

另一个值得注意的发展是Instruct2Act框架。它提供了一个用户友好的通用机器人系统，利用LLMs将多模态命令翻译为机器人的一系列动作。该系统使用LLMs生成的策略代码，通过调用各种视觉基础模型的API，实现对任务集的视觉理解。

还探索了使用LLMs进行自我规划和PDDL（规划域定义语言）规划的可能性。研究表明，LLMs的输出可以有效地指导启发式搜索规划器。

在失败解释和修正任务领域，REFLECT框架利用从多感官观察生成的机器人的过去经验的层次化总结来查询LLM以进行失败推理。获得的失败解释可以指导基于语言的规划器修正失败并成功完成任务。

此外，预训练多模态模型的适应是一种常见策略。通过将视觉-语言模型的预训练与机器人数据集成来训练视觉-语言-动作（VLA）模型，研究人员发现，使用互联网数据训练的参数多达550亿的模型可以生成高效的机器人策略。这些模型表现出增强的泛化性能，并得益于网络上广泛的视觉-语言预训练能力。

Socratic Models代表了另一种方法，通过多个大型预训练模型之间的结构化对话促进新的多模态任务的联合预测。该方法在多个任务中实现了零样本性能。

在这些研究中，主要关注点是利用LLMs自动化推理和决策过程。这是通过利用LLMs提供或使用高级语义知识来增强任务执行。一些方法将LLMs与其他模态（如视觉和动作）结合起来，以加深任务理解和执行。其他方法在以前未见过的任务上表现出有效的性能，展示了零样本或少样本学习的能力。

每项研究都采用了独特的方法来整合LLMs。例如，SayCan结合了强化学习，而Instruct2Act则专注于多模态指令的直接映射。采用的技术——从强化学习和启发式搜索到多模态预训练——在机器人操作、规划和自动化决策等不同应用领域中差异显著。这些研究共同展示了LLMs在管理复杂任务推理和决策方面的巨大潜力。通过将LLMs与其他技术（如强化学习和多模态数据处理）结合，可以实现更深层次的语义理解和更有效的决策支持。这在机器人和自动化领域尤为明显，这些集成方法为新应用铺平了道路。然而，这些方法的有效性高度依赖于任务的具体性质、使用的数据和模型的训练方法。因此，每种方法的选择和应用必须根据具体上下文进行精心调整。

3) 互动策略：LLMs的最新进展显著推动了互动策略的发展，展示了在语言生成和类人推理方面的出色能力。Matcha利用LLMs增强了互动多模态感知，展示了LLMs在理解各种输入数据（如视觉和听觉）方面的潜力。该方法提出了一种增强的LLM多模态互动代理。该代理不仅利用LLMs固有的常识知识来实现更合理的互动多模态感知，还展示了LLMs在进行此类感知和解释行为中的实际应用。

生成代理是一种互动计算代理，旨在模拟人类行为。这些代理的架构旨在存储、综合和应用相关记忆，从而利用大型语言模型生成合理的行为。LLMs与这些计算代理的整合有助于创建更先进的架构和互动模式。这种结合使得人类行为的模拟更加逼真，扩展了LLMs的潜在应用。

基于LLMs的互动策略重点在于将LLMs与其他感知系统（如图像识别和语音处理）融合。此类结合旨在模拟或增强人类能力，提升认知和处理能力。这些进展在智能助手、机器人和增强现实系统领域具有深远意义。

在讨论的工作中，显著强调了多模态感知，重点是提高系统理解和与其环境互动的能力。此外，人类行为的模拟旨在复制AI中的人类思维和行为过程。这两个方向的融合有望创造出更强大和多功能的智能系统。预计这些系统将能够以更复杂和人性化的方式与人类互动，呈现出重大的技术挑战，并引发关键的伦理和社会适应问题。

IV. 基于GPT-4V的具身任务规划

基于前述对具身任务和LLMs的研究，本研究开发了一个基于GPT-4V的具身任务规划框架，并进行了评估实验，如图1所示。以下部分将详细介绍数据集、提示设计和实验结果。

A. 数据集

为了全面评估GPT-4V在多模态具身任务规划中的能力，我们从9个数据集中选取了40多个案例，重点关注操作和抓取。这些动作在遵循指令的机器人技术中至关重要，涉及到各种场景中的人类指令，例如厨房中的物品拾取和桌面重新排列。选定的数据集通过Google Open X-Embodiment Dataset访问。在每个案例中，视频演示和自然语言指令作为输入，用以评估GPT-4V作为机器人“大脑”的表现。此设置使得基于自然语言指令的机器人动作规划更加稳健。

B. 提示设计

提示的设计在查询LLMs时起着关键作用。一个信息丰富且结构清晰的提示能够产生与给定指令更加一致和精确的输出。在这里，我们通过结合图像更新了[114]中的文本提示，创建了一个多模态提示，引导GPT-4V生成机器人任务规划。多模态提示由五个部分组成：

- 系统角色解释：明确任务和GPT-4V在其回应中所采用的角色。

- 预定义动作池：一组预定义的机器人动作，GPT-4V可以从中选择并按步骤顺序完成任务。为了解决词汇限制问题，如果有必要，GPT-4V还可以生成新动作。

- 示例输出：一个JSON格式的示例，用于说明期望的输出并确保一致性。

- 按案例提供的环境图像和自然语言指令：包括从视频演示中提取的第一帧作为环境图像。

- 评估：GPT-4V需要将生成的任务计划与真实视频演示进行比对，根据其与视频的吻合度进行评分并提供解释。

前三个部分作为系统消息输入到每个查询中，而后两个部分则根据测试数据作为用户消息输入。完整的提示如附录图4所示。

V. 实验结果

在我们的实验框架中，大型语言模型（LLMs）首先生成针对每个机器人任务目标的分步骤指令。随后，模型根据这些生成的指令，从预定义的动作池中选择最合适的动作和对象，形成每一步的动作计划。在获得LLMs生成的指令后，我们通过将其与相应视频数据集中的真实指令（Ground-Truth）进行比较，对生成的结果进行了定量评估。在9个公开可用的机器人数据集上进行了严格的测试，得出了深刻且有启发性的发现。

例如，在RT-1机器人动作数据集中，如图2上部所示，多模态LLMs准确识别了目标对象，并熟练地分解和执行了任务。正如图2左上角所示，基于给定的环境和指令，LLMs生成的指令如下：1）将手移动到底部抽屉的目标位置；2）抓住目标；3）将带有目标的手移动到柜台；4）将目标放在柜台上。在提供了详细的分步骤文本指令后，LLMs从动作池中选择并列出了一组符合当前策略的指令和对象。例如，“移动手（底部抽屉）”是第一个文本指令的功能表达，便于后续直接使用此动作计划与控制机器人手臂的接口代码。此外，通过LLMs生成的“环境状态”可以明显看出，这些模型能够有效理解在一系列操作后环境中关键对象的空间关系变化。图2中的“匹配评分”也展示了模型的精准性。

在上述测试案例中，场景涉及的对象较少，任务指令相对简洁明了。因此，我们进一步进行了测试，涉及语义模糊的任务描述和复杂场景。图2中部左侧展示了来自QT-Opt数据集的一个测试案例，其中指令仅为“抓取任何物体”，没有具体说明场景中的任何实体。LLMs生成的结果是一系列适合抓取任何物体的通用指令，与真实情况保持了高度一致。对于复杂场景，如图2中部右侧所示，我们测试了来自Berkeley Bridge数据集的一个示例案例。输入指令为“将银色锅从红色罐子前面移到桌子前缘的蓝色毛巾旁边”，涉及场景中多个对象及其空间关系。在这里，LLMs不仅掌握了任务的目的，还熟练地执行了任务细节，展现了其高级的图像理解和逻辑推理能力。

在图2和图3中进一步展示了LLMs在各种复杂场景（包括数据集[108]–[113]）中的有效性。在这些实验中，LLMs表现出色，即使在设置复杂或有特定要求的任务中也是如此。表I显示了GPT-4V在九个不同数据集中自评的平均匹配得分，表明生成的任务计划与真实演示之间的一致性始终保持在较高水平。这巩固了我们方法的有效性，并突显了多模态LLMs在机器人任务执行中的强大图像理解和逻辑推理能力。附录中还提供了其他测试结果。

表 I 数据集描述及GPT-4V自评的平均匹配得分，比较其生成的任务计划与九个测试数据集中真实演示的对比情况。

图 2. 为不同数据集生成的任务计划：RT-1 机器人动作（上部面板）、QT-Opt（中部左侧）、Berkeley Bridge（中部右侧）、Freiburg Franka Play（下部左侧）和USC Jaco Play（下部右侧）。

（注释：图2展示了GPT-4V为不同数据集生成的任务计划。图中的每个面板代表了一个特定数据集的示例任务，展示了GPT-4V在不同场景下如何生成和执行任务计划。

1. RT-1 机器人动作（上部面板）：

- 这个面板展示了GPT-4V在RT-1数据集上的任务计划示例。任务涉及从抽屉中取出目标物体，并将其放置在柜台上。GPT-4V生成了详细的分步骤指令，例如“将手移动到底部抽屉的目标位置”、“抓住目标”、“将带有目标的手移动到柜台”和“将目标放在柜台上”。这些步骤显示了GPT-4V在处理简单、明确任务时的准确性和执行能力。

2. QT-Opt（中部左侧）：

- 这个面板展示了GPT-4V在QT-Opt数据集上的任务计划。指令是模糊的，如“抓取任何物体”，并未具体说明抓取的对象。GPT-4V生成了一系列通用指令，适用于抓取场景中的任何物体。这显示了GPT-4V在处理语义模糊任务时的泛化能力，并且与真实情况保持高度一致。

3. Berkeley Bridge（中部右侧）：

- 这个面板展示了GPT-4V在Berkeley Bridge数据集上的复杂场景任务计划。指令涉及多个物体及其空间关系，例如“将银色锅从红色罐子前面移到桌子前缘的蓝色毛巾旁边”。GPT-4V准确理解了任务的目的，并成功生成了详细的动作计划，展示了其高级的图像理解和逻辑推理能力。

4. Freiburg Franka Play（下部左侧）：

- 这个面板展示了GPT-4V在Freiburg Franka Play数据集上的任务计划。任务的复杂性在于需要精确地操作物体并与环境中的多个对象交互。GPT-4V在此场景中展示了其在控制和操作机器人手臂时的能力。

5. USC Jaco Play（下部右侧）：

- 这个面板展示了GPT-4V在USC Jaco Play数据集上的任务计划。任务要求机器人在多物体的场景中进行操作和抓取，GPT-4V成功生成了适当的动作序列，显示了其处理复杂操作任务的适应性。

总结：

图2中的这些面板共同展示了GPT-4V在不同数据集和场景下的任务计划能力。无论是简单任务、模糊指令，还是复杂场景，GPT-4V都展示了出色的任务理解、分解和执行能力。通过这些示例，图2说明了GPT-4V在多种环境下的广泛应用潜力，尤其是在结合自然语言和视觉提示来生成机器人任务计划方面。）

图 3. 为不同数据集生成的任务计划：Berkeley Autolab UR5（左上）、NYU VINN（右上）、BC-Z（左下）和TOTO Benchmark（右下）。

（注释：图3展示了GPT-4V为不同数据集生成的任务计划，每个面板代表一个特定数据集的任务示例，进一步展示了GPT-4V在处理多样化机器人任务时的能力。

1. Berkeley Autolab UR5（左上角）：

- 这个面板展示了GPT-4V在Berkeley Autolab UR5数据集上的任务计划。UR5是一个常用于研究的机械臂，任务通常涉及精确的物体操作和放置。GPT-4V生成的任务计划展示了其在处理机械臂操作时的精确性和逻辑性，成功地指导机器人完成物体的抓取和移动任务。

2. NYU VINN（右上角）：

- 这个面板展示了GPT-4V在NYU VINN数据集上的任务计划。VINN数据集通常涉及复杂的视觉感知和操作任务。GPT-4V展示了其在处理涉及多个物体和复杂视觉输入的任务时的能力。通过对视觉信息的理解，GPT-4V生成了能够有效执行任务的详细计划，展示了其在复杂环境中的任务规划能力。

3. BC-Z（左下角）：

- 这个面板展示了GPT-4V在BC-Z数据集上的任务计划。BC-Z通常涉及机器人与环境中的多个物体交互，任务可能包括物体的分类、排序或移动。GPT-4V在这一场景中展示了其在处理多个目标和操作步骤时的灵活性，生成的计划能够应对多物体的复杂场景。

4. TOTO Benchmark（右下角）：

- 这个面板展示了GPT-4V在TOTO Benchmark数据集上的任务计划。TOTO Benchmark通常用于评估机器人在执行标准化任务时的性能。GPT-4V通过生成符合标准的操作步骤，展示了其在遵循任务规范、确保操作一致性和可靠性方面的能力。

总结：

图3展示了GPT-4V在不同复杂性和要求的任务中的适应性和多功能性。无论是精确的机械臂操作、复杂的视觉感知任务，还是多物体交互和标准化任务，GPT-4V都能生成有效的任务计划。这些任务计划展示了GPT-4V在不同类型的机器人任务中的广泛应用潜力，尤其是在处理多样化场景和任务要求时的能力。图3进一步巩固了GPT-4V作为多模态任务规划工具的强大表现，并突显了其在不同应用领域中的适用性。）

VI. 限制、讨论与未来工作

我们概述了将大型语言模型（LLMs）集成到机器人系统中以应对各种任务和环境的过程，并评估了GPT-4V在多模态任务规划中的表现。虽然GPT-4V作为任务规划的机器人“大脑”展示了令人印象深刻的多模态推理和理解能力，但它也面临一些局限性：1) 生成的计划同质化，缺乏详细的具身设计和针对复杂环境与任务的特定且稳健的设计。2) 当前的多模态LLMs，如GPT-4V和Google Gemini [28]，需要精心设计且冗长的提示来生成可靠的输出，这需要领域专家的知识和大量技巧。3) 机器人受限于预定义的动作，限制了其执行自由度和稳健性。4) GPT-4V API的闭源性质及其相关的时间延迟可能会阻碍嵌入式系统开发和实时商业应用。未来的研究应着力解决这些挑战，以开发更稳健的AGI机器人系统。

另一方面，GPT-4V在机器人领域展示的高级推理和视觉-语言理解能力突显了以LLM为中心的AGI机器人系统的潜力。展望未来，以多模态LLM为中心的AGI机器人在多个领域具有应用潜力。在精密农业领域，这些机器人可以在各种劳动密集型任务中替代人类劳动，特别是在收获环节。这包括像水果采摘和作物表型分析[115][116]这样的任务，这些任务需要在农场复杂环境中进行高级推理和精确操作[117]。在医疗领域，对安全性和精确性的关键需求对多模态LLMs的感知和推理能力提出了更高要求。这一点在机器人辅助筛查和手术中尤为重要，在这些场景中，定制化的任务以满足个人需求至关重要[118]。此外，利用对比学习模型，如CLIP [119]，将大脑信号与自然语言对齐，表明在以LLM为中心的AGI机器人系统中开发脑机接口（BCIs）有着可行的路径[120]。这些系统可能能够读取和解释人类大脑信号，如EEG和fMRI，用于复杂任务完成中的自我规划和控制[80][121]。这一进展可能显著缩小人类与环境互动中的差距，并减轻体力和认知劳动。

VII. 结论

在本文中，我们概述了将大型语言模型（LLMs）集成到各种机器人系统和任务中的情况。我们的分析显示，LLMs表现出令人印象深刻的推理、语言理解和多模态处理能力，可以显著增强机器人对指令、环境和所需动作的理解。我们评估了最近发布的GPT-4V模型，在9个数据集的30多个案例中进行具身任务规划。结果表明，GPT-4V能够有效利用自然语言指令和视觉感知生成详细的行动计划，以完成操作任务。这表明使用多模态LLMs作为具身智能的机器人“大脑”是可行的。

然而，在朝着更实用和更有能力的基于LLM的AI系统前进的过程中，仍然存在一些挑战有待解决，包括模型透明度、稳健性、安全性和实际应用性。具体而言，大型神经模型的黑箱特性使得难以完全理解其内部推理过程和失败模式。此外，在没有性能下降的情况下，弥合仿真与现实世界之间的差距仍然是一个持续存在的难题。通过标准化测试、对抗训练、策略适应方法和更安全的模型架构来解决这些问题仍需深入研究。依赖LLMs的自主智能系统的责任和监管协议也需要仔细考虑。以谨慎、道德和社会责任的方式克服这些多方面的挑战，仍然是我们在这一领域推进进展的关键。

随着语言模型继续从多模态数据中积累广泛的基础知识，我们预期将迅速推动它们与机器人技术和基于仿真的学习相结合的发展。这可能使得在部署前，使用从仿真到现实的技术直观地开发和验证智能机器人变得可能。此类发展可能会深刻增强和改变我们构建、测试和部署智能机器人系统的方式。

总体而言，自然语言处理与机器人技术的协同集成是一个充满机遇和挑战的前沿领域，值得未来广泛的跨学科研究。

53AI，企业落地大模型首选服务商

产品：场景落地咨询+大模型应用平台+行业解决方案

承诺：免费场景POC验证，效果验证后签署服务协议。零风险落地应用大模型，已交付160+中大型企业