我要投稿

Apple 的 AI 代理评估框架

发布日期：2024-08-26 07:54:21 浏览次数： 2088 作者：barry的异想世界

苹果最近推出了 ToolSandbox，这是一个用于有状态、对话式、交互式评估 LLM 工具使用能力的框架。这一消息紧随苹果发布关于 Ferrit-UI 的研究，该研究旨在增强移动 UI 理解。最引人注目的是评估框架的定义以及它所衡量的 Agent AI 或 Agentic 应用的具体方面。

介绍

好的，苹果推出了一个名为 ToolSandbox 的框架，该框架被描述为用于 LLM 工具使用能力的有状态、对话式、交互式评估基准框架。

这紧随苹果发布一项研究，展示了 Ferrit-UI 用于基础移动用户界面理解的成果。

然而，对我个人而言，这项研究中最有趣的部分是评估框架的定义方式以及测量的 Agent AI 或 Agentic 应用程序的元素。

我们展示了开源模型和专有模型之间存在显著的性能差距，ToolSandbox 中定义的复杂任务，如状态依赖性、规范化和信息不足，即使对于最强大的 SOTA LLM 来说也是具有挑战性的，为工具使用 LLM 能力提供了全新的见解。~ 苹果

我们正处于这一转折点，推出了被称为 自主代理、AI 代理、Agent AI、代理、Agentic 应用程序 等的概念。

许多人在问，自主代理到底是什么？虽然许多人认为自主这个词在某种程度上是反乌托邦的。

好消息是，苹果发布的 ToolSandbox 框架不仅作为评估代理的工作原型，还作为代理应具备能力以及它们如何扩展到它们所生活的世界的优秀参考框架。这个世界通常是目前的手机操作系统、网页浏览器或桌面。

代理环境

下图展示了苹果所看到的评估轨迹，其中消息总线代表了完整的历史。苹果将用户、代理和执行环境视为对话的一部分。这种方法将代理视为这些参与方之间的中介。

我发现世界状态的概念非常有趣，其中某些环境或环境设置需要被访问以启用某些操作。

这个世界状态暗示了苹果在Ferrit-UI和其他研究（如WebVoyager）方面所做的研究。在这个世界中，代理需要进行交互。这个世界目前由表面或屏幕构成，需要在浏览器窗口、手机操作系统等之间进行导航。

里程碑是需要执行的关键点，以实现或满足用户意图。如果无法执行，这些也可以被视为潜在的失败点。

在上图的示例中，用户的意图是发送一条消息，而蜂窝服务已关闭。

代理首先应该理解用户的意图，并提示用户提供必要的参数。在借助search_contacts工具收集所有参数后，代理尝试发送消息，发现需要在失败时启用蜂窝服务，并进行了重试。

为了评估这个轨迹，我们在每个回合中找到所有里程碑与消息总线和世界状态的最佳匹配，同时保持拓扑顺序。

这是一个很好的例子，说明为了使代理真正自主，它需要控制其环境。

关键要素

尽管向更简化的问题表述的范式转变，但面向任务的对话的状态性、对话性和互动性仍然存在，并对工具使用的LLMs的系统性和准确性评估构成了重大挑战。

有状态

苹果公司将状态视为不仅仅是对话的轮次或对话状态，还包括代理所处环境的状态。

这包括有状态工具之间的隐式状态依赖关系，使代理能够根据其世界或常识知识（这些知识是用户查询中隐含的）跟踪和改变世界状态。

代理自主性

我在这项研究中发现的另一个有趣的概念是 知识边界，它告知用户模拟器应该知道什么和不应该知道什么，提供对预期结果的部分访问，从而对抗幻觉。这类似于领域内和领域外的问题。

里程碑 和雷区定义了在轨迹中必须或不必须发生的关键事件，使我们能够通过丰富的中间和最终执行信号来评估任何轨迹。

复杂性

对于对话用户界面，定义了两种场景……

单一/多个工具调用

一种情况是存在单一的对话或用户回合，同时在后台有多个工具调用程序。

因此，用户发出一个单一的请求，从 NLU 对话状态管理的角度来看并不复杂，但在后台需要大量处理。

单用户 / 多用户对话

在其他场景中，可能只有一个工具调用事件或里程碑，但需要多个对话轮次来确定用户意图、在必要时消歧义、收集用户的相关和必要信息等。

考虑上面的图像，这是一个部分匹配里程碑的GPT-4o轨迹示例。

在这个例子中，GPT-4o花费了大部分时间来解决状态依赖问题，未能在允许的最大轮次内完成任务。

尽管最终的里程碑导致了失败，但中间里程碑有助于更好地了解失败原因。

最后

Apple 的 ToolSandBox 是一个有状态的、对话式的、互动的评估基准工具，用于评估 large language models (LLMs) 的工具使用能力。

这更进一步接近于模型编排的环境，并使用模型来处理它们最适合的特定任务和应用。

它突出了开源模型和专有模型之间的显著性能差异，特别是在涉及以下场景时：

状态依赖性，
规范化，以及
信息不足。

该框架揭示了即使对于最先进的 (SOTA) 模型也存在挑战，为 LLM 工具使用能力提供了新的见解。

53AI，企业落地大模型首选服务商

产品：场景落地咨询+大模型应用平台+行业解决方案

承诺：免费场景POC验证，效果验证后签署服务协议。零风险落地应用大模型，已交付160+中大型企业

相关资讯

2025-04-17

提示词培训课—Part1

2025-04-16

这段Prompt提示词生成的自我介绍卡，让别人3年后还记得你

2025-04-16

思维链（Chain of Thought）是什么？有什么价值？怎么用？

2025-04-16

大模型Prompt工程：从理论到实践

2025-04-16

重磅！OpenAI 官方发布 GPT-4.1 最强提示词指南，AI 能力全面升级！

2025-04-15

提示词(prompt)那些事

2025-04-15

高级提示工程

2025-04-14

小白也能写出专业文生图Prompt，超棒的提示词框架+AI生图工具分享。

了解更多

160+中大型企业正在使用53AI

立即咨询预约演示

把握AI发展的机遇，共同探索、共同进步

2025-01-22

如何打造基于GenAI的员工服务机器人

2025-01-22

热点资讯

如何选择AI Agent框架？五种主流AI Agent框架对比

2024-08-20

一文讲透AI Prompt提示词工程 (上）

2024-06-29

Chat GPT不知怎么问？102种行业的Prompt提示词大全来了

2023-06-08

10分钟打造小红书？| 42个Cursor神级提示词（全网最新最全）

2024-09-17

更好的提示词？快试试这个方法来套取大模型的系统提示词吧

2024-06-27

使用ChatGPT显著提升学术写作水平的实用攻略，附顶级学术提示词指令

2024-06-26

提示词最佳实践（一）：Prompt框架

2024-07-09

玩转大模型的第一步——提示词(Prompt)工程【抛砖篇】

2024-07-12

豆包、kimi 这些大模型系统提示词里写了啥？(一)

2024-09-16

图解DSPy：Prompt的时代终结者？！

2024-06-14

大家都在问

思维链（Chain of Thought）是什么？有什么价值？怎么用？

2025-04-16

为什么提示工程，可以驾驭大模型？

2025-04-11

Claude 3.7 核心提示词曝光｜最懂提示词的大模型公司，现在怎么写 Prompt？

2025-02-25

我是如何基于 DeepSeek-R1 构建出高效学习Agent的？

2025-02-21

李继刚：AI都这么智能了，为什么还要研究写「提示词」？

2025-01-05

Claude 团队内部分享！什么时候该用Workflow和Agent，如何用简单模式构建有效的 LLM Agent ?

2025-01-04

李继刚 | 当我们讲Prompt时我们到底在说什么？

2024-12-15

AI对话的日常思考：当我们在讨论提示词时，到底在纠结什么？

2024-11-15

热门标签

内容创作大模型技术个人提效 langchain llamaindex 多模态技术 RAG技术智能客服知识图谱模型微调 RAGFlow coze Dify Fastgpt Bisheng Qanything AI+汽车 AI+金融 AI+工业 AI+培训 AI+SaaS 提示词框架提示词技巧 AI+电商 AI面试数字员工 ChatBI 知识管理开源大模型智能营销智能硬件智能化改造 AI+医疗 MaxKB

Apple 的 AI 代理评估框架

介绍

更多关于 ToolSandbox

代理环境

关键要素

有状态

代理自主性

复杂性

单一/多个工具调用

单用户 / 多用户对话

最后