微信扫码
与创始人交个朋友
我要投稿
近年来,大型语言模型(LLM)在多种任务中展示了显著的性能,包括具体规划和行动、问答或对话以及一般问题解决。然而,要将LLM应用于现实世界中的通用智能体任务,仍存在两个挑战:一是遵守程序性要求,二是智能体的可访问性和易用性。现有的智能体框架没有遵循明确的推理程序,且基于代码的智能体依赖于为特定任务定制的API平台,这通常需要许多代码示例,可能难以产生。
AgentKit中的每个节点都接收其依赖项的输出,并输出一个字符串来完成一个预定义的子任务。橙色组件(After-query)是可选的,并且可以通过AgentKit API进行最小的编程定制。左侧:节点内的评估过程由compose(组合)和after-query(查询后)组成。右侧:在推理期间可以动态添加/移除节点。例如,节点n7的after-query操作会根据LLM对节点查询的肯定或否定回答,添加一个条件节点n+/n−。这引发了条件分支。
左侧三列:在Crafter游戏中的一个示例轨迹。不同的节点在规划、反思、反馈和知识发现方面协同工作,以完成前11步并成功制作桌子。通过环境交互和错误识别/纠正,智能体发现了两个关于“每次Do动作所需木材”和“制作桌子所需木材”的信息片段,这些信息最初在说明书中被省略了。右侧列:游戏结束时,智能体采取的所有动作(分类为移动、Do—互动、制作)的分布,针对技能库中的每项技能。基于技能名称,动作分布与人类预期相符。
在WebShop任务中,AgentKit设计了一个零样本智能体,不依赖于人类轨迹的示例,而是通过定制节点来完成任务。
智能体在WebShop上与基线系统的对比。为了节省成本,报告了WebShop前100个样本的得分。AgentKit在使用GPT-4和成本更低的GPT-4-turbo时都达到了最先进的性能。
AgentKit: Flow Engineering with Graphs, not Codinghttps://arxiv.org/pdf/2404.11483.pdfhttps://github.com/holmeswww/AgentKit
53AI,企业落地应用大模型首选服务商
产品:大模型应用平台+智能体定制开发+落地咨询服务
承诺:先做场景POC验证,看到效果再签署服务协议。零风险落地应用大模型,已交付160+中大型企业
2024-05-14
2024-04-26
2024-03-30
2024-04-12
2024-05-10
2024-07-18
2024-05-22
2024-05-28
2024-04-25
2024-04-26
2024-11-15
2024-11-14
2024-11-13
2024-11-13
2024-11-13
2024-11-12
2024-11-11
2024-11-08