我要投稿

新兴人工智能Agent架构的综述：推理、规划和工具调用

发布日期：2024-04-21 07:57:59 浏览次数： 2563 作者：PaperAgent

自ChatGPT推出以来，许多第一波生成性AI应用已成为使用检索增强生成（RAG）模式在文档语料库上进行聊天的变种。虽然有很多工作在使RAG系统更加健壮，但不同的团队开始构建下一代AI应用的外观，集中在一个共同的主题上：智能体（Agent）。与用户在开放式文本字段中输入并无需额外输入即可获得结果的大型语言模型的零次提示不同，智能体允许更复杂的交互和编排。特别是，智能体系统具有规划、循环、反思和其他控制结构的概念，这些结构充分利用了模型固有的推理能力来端到端完成任务。结合使用工具、插件和函数调用的能力，智能体被赋予了执行更通用工作的能力。当问题定义明确且不需要来自其他智能体角色或用户的反馈时，单智能体架构表现出色；而当需要协作和多条不同的执行路径时，多智能体架构更倾向于蓬勃发展。

智能体（Agent）分类

AI智能体被定义为能够规划和采取行动以在多轮迭代中执行目标的语言模型驱动实体。智能体架构可以由单个智能体或多个协同工作解决问题的智能体组成。

图1：单智能体和多智能体架构及其底层特性和能力的可视化展示。

AI智能体定义：AI智能体被描述为能够规划和采取行动以在多轮迭代中执行目标的语言模型驱动实体。
单智能体与多智能体架构：AI智能体架构可以由单个智能体构成，也可以由多个协同工作的智能体构成，以解决特定的问题。
智能体角色（Agent Persona）：每个智能体被赋予一个角色或个性，这包括特定于该智能体的任何指令。角色还涉及智能体可以利用的工具的描述。
工具（Tools）：在AI智能体的上下文中，工具指的是模型可以调用的任何功能，允许智能体与外部数据源交互。
单智能体架构：由一个语言模型驱动，独立完成所有的推理、规划和工具执行。单智能体模式没有来自其他AI智能体的反馈机制，但可能包括人类提供反馈的选项。
多智能体架构：涉及两个或更多的智能体，它们可以利用相同的语言模型或不同的语言模型集合。每个智能体通常有自己独特的角色。
垂直与水平架构：多智能体架构被进一步细分为垂直和水平两种类型。垂直架构中有一个智能体作为领导者，而水平架构中所有智能体平等参与，共享信息和任务。
智能体的三个组成部分：根据文中的定义，智能体由“大脑、感知和行动”三个基本部分组成，以满足智能体理解、推理和对其周围环境采取行动的最小需求。

单智能体（SingleAgent）架构

单智能体架构由一个语言模型驱动，独立执行所有的推理、规划和工具执行。成功的单智能体目标执行依赖于适当的规划和自我修正能力。单智能体在执行直接功能调用且不需要其他智能体反馈的任务时特别有用。

单智能体方法示例：

ReAct：智能体首先写下关于给定任务的思考，然后根据这些思考执行动作，并观察输出，这个循环可以一直重复，直到任务完成。

图2：ReAct方法与其他方法比较的一个示例

RAISE：在ReAct方法的基础上增加了一个模仿人类短期和长期记忆的记忆机制，使用草稿本进行短期存储，使用类似先前案例的数据集进行长期存储。

图3：展示了RAISE方法的图表

Reflexion：使用语言反馈进行自我反思的单智能体模式，通过使用成功状态、当前轨迹和持久记忆等指标，利用大型语言模型（LLM）评估器为智能体提供具体和相关的反馈。

AutoGPT + P：针对以自然语言指挥机器人的智能体推理限制的方法，结合了对象检测和对象功能映射（OAM）以及由LLM驱动的规划系统。

图4：AutoGPT+P方法的图解

LATS：使用树进行规划、行动和推理的单智能体方法，通过树搜索算法选择行动，并在执行行动后使用环境反馈和语言模型反馈进行自我反思。

尽管单智能体架构在某些方面取得了进展，但它们在理解复杂逻辑、避免幻觉（hallucination）以及在需要多样性、探索和推理的任务上提高性能方面仍存在挑战。

多智能体（Multi Agent）架构

涉及两个或更多智能体，每个智能体可以使用相同的语言模型或不同的语言模型集合。多智能体架构通过智能体之间的沟通和协作计划执行来促进目标的实现。这些架构通常涉及动态团队构建，以及在规划、执行和评估阶段对团队成员的智能分工。

多智能体架构分为两大类：垂直架构和水平架构。垂直架构中有一个主导智能体，而水平架构中所有智能体地位平等，共同参与任务讨论。

多智能体架构示例：

Embodied LLM Agents Learn to Cooperate in Organized Teams：研究了领导智能体对团队整体效能的影响，发现有组织的领导智能体团队完成任务的速度比无领导的团队快。

图5：有指定领导者的智能体团队实现了更优越的表现

DyLAN (Dynamic LLM-Agent Network)：创建了一个专注于复杂任务如推理和代码生成的动态智能体结构，通过动态评估和排名智能体的贡献来优化团队。

AgentVerse：通过为任务执行定义严格的阶段（招募、协作决策制定、独立行动执行和评估），帮助指导智能体更有效地推理、讨论和执行。

图6：AgentVerse方法的图解

MetaGPT：通过要求智能体生成结构化输出（如文档和图表）而不是分享非结构化的聊天信息，解决了智能体之间无效聊天的问题。

尽管AI智能体技术前景广阔，但仍存在一些挑战，包括建立全面的基准测试、确保现实世界的应用性，以及减轻语言模型的有害偏见。此外，从静态语言模型向更动态、自主的智能体发展的转变，旨在为使用现有或开发定制智能体架构的研究提供全面的理解和指导。

THE LANDSCAPE OF EMERGING AI AGENT ARCHITECTURES FOR REASONING, PLANNING, AND TOOL CALLING: A SURVEYhttps://arxiv.org/pdf/2404.11584.pdf

53AI，企业落地大模型首选服务商

产品：场景落地咨询+大模型应用平台+行业解决方案

承诺：免费场景POC验证，效果验证后签署服务协议。零风险落地应用大模型，已交付160+中大型企业

相关资讯

2024-07-10

科研助力神器：Scholar GPT，百倍提升你的研究效率！

2024-07-09

Doc2X：一款功能超级强大的文档解析与转换工具

2024-07-06

我对多智能体协作过程自动演化架构设计

2024-07-06

可穿戴AI，底层逻辑的变化

2024-07-06

一文彻底搞懂Transformer - Word Embedding（词嵌入）

2024-07-06

AI动态 | 腾讯元宝AI搜索能力升级：深度搜索模式上线

2024-07-06

智能手表 + AI ，都已经这么智能了？？

2024-07-06

死磕10万卡GPU算力集群，腾讯星脉网络2.0有什么秘密武器？

了解更多

160+中大型企业正在使用53AI

立即咨询预约演示

把握AI发展的机遇，共同探索、共同进步

2025-01-22

如何打造基于GenAI的员工服务机器人

2025-01-22

热点资讯

爆肝50小时，DeepSeek使用技巧，你收藏这一篇就够了！

2025-02-01

Ollama 本地运行大模型(LLM)完全指南

2024-07-25

我把最近爆火的 DeepSeek-V3 接到了 Cursor！

2025-01-01

一文读懂DeepSeek-R1本地部署配置要求（建议收藏）

2025-02-04

本地部署大模型？看这篇就够了，Ollama 部署和实战

2024-08-13

更改ollama模型存储路径

2024-04-25

16个具有“联网搜索”功能的AI：总有一个适合你！

2024-06-13

Cursor 一个真正让程序员产生危机感的 AI 编程工具

2024-08-21

OpenAI o1与GPT4o的对比分析

2024-09-23

全民AI时代：手把手教你用Ollama & AnythingLLM搭建AI知识库，无需编程，跟着做就行！

2024-04-26

大家都在问

除了MCP我们还有什么？

2025-04-24

LLM 推理引擎之争：Ollama or vLLM ?

2025-04-24

专题策划（下）| 如何实现大模型与行业的深度耦合？

2025-04-23

OpenAI：就你们也配做智能体？

2025-04-23

为什么全参数微调能让大模型从“通才”变“专才”？

2025-04-23

RAG应用必备！10种向量数据库全解析、Weaviate、Milvus、pgvector、Qdrant等热门工具谁更强？

2025-04-22

18种RAG技术大比拼：谁才是检索增强生成的最佳选择？

2025-04-22

白话解析 DPO：如何让 AI 直接学习人类偏好？

2025-04-22

热门标签

内容创作大模型技术个人提效 langchain llamaindex 多模态技术 RAG技术智能客服知识图谱模型微调 RAGFlow coze Dify Fastgpt Bisheng Qanything AI+汽车 AI+金融 AI+工业 AI+培训 AI+SaaS 提示词框架提示词技巧 AI+电商 AI面试数字员工 ChatBI 知识管理开源大模型智能营销智能硬件智能化改造 AI+医疗 MaxKB