我要投稿

AgentKit：用乐高积木式节点构建LLM智能体的思考过程以解决复杂任务

发布日期：2024-04-18 20:12:45 浏览次数： 2054 作者：PaperAgent

近年来，大型语言模型（LLM）在多种任务中展示了显著的性能，包括具体规划和行动、问答或对话以及一般问题解决。然而，要将LLM应用于现实世界中的通用智能体任务，仍存在两个挑战：一是遵守程序性要求，二是智能体的可访问性和易用性。现有的智能体框架没有遵循明确的推理程序，且基于代码的智能体依赖于为特定任务定制的API平台，这通常需要许多代码示例，可能难以产生。

用户将任务分解为代表“思考过程”的子任务（节点），并为这些子任务（节点）创建提示。在AgentKit中，子任务（节点）可以以不同的方式设计和组装，以实现多样化的功能，类似于乐高积木。

为了克服这些挑战，提出了AgentKit并开源，这是一个为组装简单自然语言子任务而设计的LLM提示框架，以解决复杂任务。AgentKit的基本构建单元是“节点”，每个节点包含针对特定子任务的自然语言提示。用户可以将这些节点串联起来，形成节点链，以明确实施一个自然结构化的思考过程。AgentKit的节点可以以不同的方式设计和组合，实现多种高级功能，如即时的层次化规划、反思和从交互中学习。

AgentKit中的每个节点都接收其依赖项的输出，并输出一个字符串来完成一个预定义的子任务。橙色组件（After-query）是可选的，并且可以通过AgentKit API进行最小的编程定制。左侧：节点内的评估过程由compose（组合）和after-query（查询后）组成。右侧：在推理期间可以动态添加/移除节点。例如，节点n7的after-query操作会根据LLM对节点查询的肯定或否定回答，添加一个条件节点n+/n−。这引发了条件分支。

AgentKit的设计允许动态添加和移除节点及依赖关系，形成动态有向无环图（DAG），并在推理时通过遍历DAG来计算每个节点的LLM结果。此外，AgentKit提供了一个中心数据库，使用户可以将任务规格、指令和当前游戏观察传递给图中的每个节点，并允许节点存储和传递永久信息。

由AgentKit驱动的示例智能体，为了节省空间，节点名称被缩写。(a) 在游戏中的每一步，三个总结节点（绿色）ns-obs、ns-plan、ns-action 分别总结当前步骤的观察、计划和行动。(b) 在步骤 T 时，所有规划节点（蓝色）接收 oT−1、oT 和手册 I 作为输入，并输出 3 个子目标和一个技能 sT。nreflect 反思最近 25 步的总结，而 nchallenge、ngate 决定是否将步骤 (T − 1) 的子目标延续或更新。(c) 每 3 步在技能 sT 下，(nfeed 紫色) 反思所有在 sT 下的游戏历史，并为规划器 (b) 生成一个特定技能的反馈。(d) 每一步 T，nkb-add（灰色）检查 oT−1、oT 和 I 以从 Lunk 中识别新信息。nunknown 通过识别当前子目标从 I 中缺少的信息来添加到 Lunk。

通过AgentKit实现的智能体在Crafter游戏和WebShop任务上实现了最先进的性能。

在Crafter游戏中，AgentKit实现了层次化规划、短期反思、长期反思和从交互中学习的能力。

左侧三列：在Crafter游戏中的一个示例轨迹。不同的节点在规划、反思、反馈和知识发现方面协同工作，以完成前11步并成功制作桌子。通过环境交互和错误识别/纠正，智能体发现了两个关于“每次Do动作所需木材”和“制作桌子所需木材”的信息片段，这些信息最初在说明书中被省略了。右侧列：游戏结束时，智能体采取的所有动作（分类为移动、Do—互动、制作）的分布，针对技能库中的每项技能。基于技能名称，动作分布与人类预期相符。

在WebShop任务中，AgentKit设计了一个零样本智能体，不依赖于人类轨迹的示例，而是通过定制节点来完成任务。

智能体在WebShop上与基线系统的对比。为了节省成本，报告了WebShop前100个样本的得分。AgentKit在使用GPT-4和成本更低的GPT-4-turbo时都达到了最先进的性能。

AgentKit: Flow Engineering with Graphs, not Codinghttps://arxiv.org/pdf/2404.11483.pdfhttps://github.com/holmeswww/AgentKit

53AI，企业落地大模型首选服务商

产品：场景落地咨询+大模型应用平台+行业解决方案

承诺：免费场景POC验证，效果验证后签署服务协议。零风险落地应用大模型，已交付160+中大型企业

相关资讯

2024-07-10

科研助力神器：Scholar GPT，百倍提升你的研究效率！

2024-07-09

Doc2X：一款功能超级强大的文档解析与转换工具

2024-07-06

我对多智能体协作过程自动演化架构设计

2024-07-06

可穿戴AI，底层逻辑的变化

2024-07-06

一文彻底搞懂Transformer - Word Embedding（词嵌入）

2024-07-06

AI动态 | 腾讯元宝AI搜索能力升级：深度搜索模式上线

2024-07-06

智能手表 + AI ，都已经这么智能了？？

2024-07-06

死磕10万卡GPU算力集群，腾讯星脉网络2.0有什么秘密武器？

了解更多

160+中大型企业正在使用53AI

立即咨询预约演示

把握AI发展的机遇，共同探索、共同进步

2025-01-22

如何打造基于GenAI的员工服务机器人

2025-01-22

热点资讯

爆肝50小时，DeepSeek使用技巧，你收藏这一篇就够了！

2025-02-01

我把最近爆火的 DeepSeek-V3 接到了 Cursor！

2025-01-01

Ollama 本地运行大模型(LLM)完全指南

2024-07-25

一文读懂DeepSeek-R1本地部署配置要求（建议收藏）

2025-02-04

本地部署大模型？看这篇就够了，Ollama 部署和实战

2024-08-13

更改ollama模型存储路径

2024-04-25

16个具有“联网搜索”功能的AI：总有一个适合你！

2024-06-13

Cursor 一个真正让程序员产生危机感的 AI 编程工具

2024-08-21

OpenAI o1与GPT4o的对比分析

2024-09-23

全民AI时代：手把手教你用Ollama & AnythingLLM搭建AI知识库，无需编程，跟着做就行！

2024-04-26

大家都在问

OpenAI 官方定义：到底什么是 AI Agent？

2025-04-20

LLM如何将杂乱文本变为可视化知识图谱？

2025-04-20

大模型能像专业分析师一样提取用户需求吗？

2025-04-20

RAG vs. CAG vs. Fine-Tuning：如何为你的大语言模型选择最合适的“脑力升级”？

2025-04-19

微软最新 Playwright MCP 服务器强势来袭？

2025-04-19

大概念模型（Large Concept Models）会取代提示工程吗？

2025-04-18

什么是RAG与为什么要RAG？

2025-04-18

OpenAI开源的Codex CLI是什么？

2025-04-17

热门标签

内容创作大模型技术个人提效 langchain llamaindex 多模态技术 RAG技术智能客服知识图谱模型微调 RAGFlow coze Dify Fastgpt Bisheng Qanything AI+汽车 AI+金融 AI+工业 AI+培训 AI+SaaS 提示词框架提示词技巧 AI+电商 AI面试数字员工 ChatBI 知识管理开源大模型智能营销智能硬件智能化改造 AI+医疗 MaxKB