AI知识库

53AI知识库

学习大模型的前沿技术与行业应用场景


谷歌 AI Agent 白皮书 1/3 什么是Agent ?

发布日期:2025-02-16 10:32:03 浏览次数: 1665 来源:自牧生语
推荐语

探索AI Agent的革命性概念,了解谷歌如何定义并利用这一技术。

核心内容:
1. AI Agent的定义及其与LLM workflow、app、software的区别
2. Agent如何利用工具与外部世界交互,实现目标
3. Agent的自主性及其在没有人类干预下独立行动的能力

杨芳贤
53A创始人/腾讯云(TVP)最具价值专家

年关将至,越来越多预测 25 年是 AI Agent 爆发之年,那么什么是 AI Agent ? Agent 的核心,或者说区别于 LLM  workflow、app、software……的关键点是 ? 

Google 在 2024 年 9 月发布的白皮书《Agents》已经对此做出了解答:

?本文是完整的白皮书全文翻译,篇幅太长,公众号编辑器太烂,分了3篇发出。另外,为了避免读得头大,章节开头会有这样的高亮部分,其中是我人肉总结的章节要点。

本篇对应原白皮书以下章节:

引言

?人类再聪明,也需要依赖工具,生成式大模型自身的能力再强,也需要一定的工具/手段与外部真实世界有效交互。

人类在处理复杂的模式识别任务上表现出色。然而,他们往往依赖工具——如书籍、谷歌搜索或计算器——来补充他们的先验知识,最终得出结论。

与人类一样,生成式 AI 模型可以被训练使用工具来访问实时信息或建议现实世界的行动。例如,模型可以利用数据库检索工具来访问特定信息,如客户的购买历史,从而生成定制的购物推荐。或者,根据用户的查询,模型可以通过调用各种 API 来发送电子邮件回复给同事,或代表您完成金融交易。为此,模型不仅需要访问一组外部工具,还需要具备规划和执行任何任务的能力。

这种推理、逻辑和访问外部信息的组合,都与生成式 AI 模型相连,引出了 Agent 的概念,即一种超越生成式 AI 模型独立能力的程序。本白皮书将深入探讨这些及其相关方面。

1. 什么是 Agent?

?Agent 顾名思义,是可以代理我们完成特定任务的智能体(应用程序)。所谓代理,就是说 Agent 可以代替人类、自主的完成某些任务。

在最基本的形式中,生成式 AI Agent 可以定义为一个应用程序,它试图通过观察世界并使用其可用的工具来实现目标。

Agent 是自主的,可以在没有人类干预的情况下独立行动,尤其是在提供了适当的目标或它们应实现的目标时。Agent 还可以主动采取行动来实现其目标。即使在缺乏人类明确指令集的情况下,Agent 也可以推理出为了实现其最终目标下一步应该做什么。

虽然 AI 中的 Agent 概念非常广泛且强大,但本白皮书将重点关注生成式 AI 模型在发布时能够构建的特定类型的 Agent。

为了理解 Agent 的内部工作原理,我们首先介绍驱动 Agent 行为、行动和决策的基本组件。这些组件的组合可以描述为一种认知架构,并且可以通过这些组件的混合和匹配来实现许多这样的架构。专注于核心功能,图 1 展示了 Agent 认知架构中的三个基本组件。

图1. 通用代理架构及组件

1.1 模型 The model

?模型是 Agent 的灵魂:

  • 如果说 Agent 是一个能够执行特定任务的机器人,模型(大语言模型)就是它的大脑;

  • 如果说 Agent 是一个能够执行特定任务的电脑,模型(大语言模型)就是它的 CPU/GPU在 Agent 的范围内,模型指的是将作为 Agent 过程的中央决策者的语言模型(LM)。

Agent 使用的模型可以是任何大小的单个或多个 LM,能够遵循基于指令的推理和逻辑框架,如 ReAct、Chain-of-Thought 或 Tree-of-Thoughts。模型可以是通用的、多模态的,或根据特定 Agent 架构的需求进行微调。

为了获得最佳的生产结果,您应该利用最适合您期望的最终应用程序的模型,理想情况下,该模型已经接受了与您计划在认知架构中使用的工具相关的数据签名的训练。

需要注意的是,模型通常不会使用 Agent 的特定配置设置(即工具选择、编排/推理设置)进行训练。然而,通过提供展示 Agent 能力的示例,包括 Agent 在各种上下文中使用特定工具或推理步骤的实例,可以进一步优化模型以完成 Agent 的任务。

1.2 工具 The tools

?简而言之,工具(软件)是沟通 Agent 和现实世界的桥梁,是 Agent 获取现实世界信息、触发外部世界开关的接口。

尽管基础模型在文本和图像生成方面表现出色,但它们仍然受到无法与外部世界互动的限制。工具填补了这一空白,使 Agent 能够与外部数据和服务互动,并解锁超越基础模型本身能力的更广泛行动。

工具可以采取多种形式,具有不同的复杂性深度,但通常与常见的 Web API 方法(如 GET、POST、PATCH 和 DELETE)保持一致。例如,工具可以更新数据库中的客户信息,或获取天气数据以影响 Agent 为用户提供的旅行建议。

通过工具,Agent 可以访问和处理现实世界的信息。这使它们能够支持更专业的系统,如检索增强生成(RAG),这显著扩展了 Agent 的能力,超越了基础模型本身所能实现的。我们将在下面更详细地讨论工具,但最重要的是要理解,工具填补了 Agent 内部能力与外部世界之间的空白,解锁了更广泛的潜力。

1.3 编排层 The orchestration layer

?编排实际上是在 “指导” Agent 如何工作,它确保 Agent 接收信息后进行一系列推理和循环,最终实现目标。

编排层描述了一个循环过程,它规定了 Agent 如何接收信息、进行内部推理,并使用该推理来指导其下一步行动或决策。

通常,这个循环会继续,直到 Agent 达到其目标或停止点。编排层的复杂性可能因 Agent 及其执行的任务而异。一些循环可能只是简单的计算和决策规则,而其他循环可能包含链式逻辑、涉及额外的机器学习算法,或实现其他概率推理技术。我们将在认知架构部分讨论更多关于 Agent 编排层的详细实现。

1.4 Agent 与模型对比

为了更清楚地理解代理与模型之间的区别,请参考以下图表:

1.5 认知架构:Agent 如何运作

?把 Agent 想象成一个“有脑子”的自动化设备,大语言模型就是该设备的“大脑”:

  • 输入:来自于用户的输入、外部命令或者某些条件触发

  • 执行命令的具体方法、步骤、框架:来自提示词为它编写的 “程序”

  • 执行命令所需的实时数据:来自外部工具

  • 输出:决策或者外部工具执行的结果

想象一下,在一个繁忙的厨房里,一位厨师正在工作。他们的目标是为餐厅的顾客制作美味的菜肴,这涉及计划、执行和调整的循环过程。

  • 他们收集信息,如顾客的订单以及储藏室和冰箱中的食材。

  • 他们会根据刚收集的信息进行内部推理,思考可以制作哪些菜品和风味。

  • 他们会采取行动制作菜品:切菜、调配香料、煎肉。

在每个阶段,厨师会根据需要进行调整,随着原料的消耗或收到顾客反馈,他们会不断完善计划,并利用先前的结果来决定下一步的行动方案。这种信息输入、计划、执行和调整的循环,描述了厨师为达成目标所采用的独特认知架构。

就像厨师一样,Agents 也可以利用认知架构,通过迭代处理信息、做出明智决策,并根据先前的输出不断优化下一步行动,以实现其最终目标。

在 Agents 认知架构的核心,存在一个协调层,负责维护记忆、状态、推理和规划。它利用迅速发展的提示工程及其相关框架来指导推理和规划,使 Agents 能够与其环境更有效地互动,从而完成任务。

关于提示工程框架和语言模型任务规划的研究正在快速推进,产生了多种有前景的方法。尽管不是详尽的清单,但以下是本文发布时最受欢迎的几个框架和推理技术:

  • ReAct,一种提示工程框架,为语言模型提供了一种推理过程策略,用于对用户查询进行推理并采取行动,无论是使用上下文示例还是不使用上下文示例。ReAct 提示技术已被证明优于多个 SOTA 基线,并提高了 LLM 的人机互操作性和可信度。

  • 链式推理(Chain-of-Thought,CoT)是一种提示工程框架,通过中间步骤实现推理能力。CoT 包含多种子技术,如自一致性、主动提示和多模态 CoT,每种技术根据具体应用有其优缺点。

  • 思维树(Tree-of-Thoughts,ToT)是一种适用于探索或前瞻性任务的提示工程框架。它扩展了链式推理提示,允许模型探索多种思维链,作为使用语言模型解决一般问题的中间步骤。

Agent 可以采用上述任意一种推理技术,或其它多种技术,来为给定的用户请求选择下一个最佳操作。例如,我们考虑一个使用 ReAct 框架来为用户查询选择正确操作和工具的 Agent 。事件的顺序可能如下:

1. 用户向 Agent 发送查询

2. Agent 开始执行 ReAct 序列

3. Agent 向模型提供提示,要求生成下一个 ReAct 步骤及其对应输出:

    a. 问题:用户查询中的输入问题,随提示一起提供

    b. 思考:模型对接下来应执行的操作的思考

    c. 操作:模型对接下来要进行的操作的决定

       i. 这里可能涉及工具选择

       ii. 例如,操作可以是 [航班,搜索,代码,无] 中的一个,前三个表示模型可以选择的已知工具,最后一个表示“无工具选择”

    d. 动作输入:模型关于提供给工具(如有)的输入的决定

    e. 观察:动作/动作输入序列的结果

    f. 此思维/动作/动作输入/观察可根据需要重复 N 次

    g. 最终答案:模型对原始用户查询的最终回答

4. ReAct 循环结束,最终答案返回给用户。

图2. 在编排层使用ReAct推理的代理示例

如图 2 所示,模型、工具和 Agent 配置共同协作,根据用户原始查询提供一个基于事实的简明回答。虽然模型本可以根据其先验知识猜测答案(产生幻觉),但它选择使用一个工具(航班)来搜索实时的外部信息。这些额外信息被提供给模型,使其能够依据真实事实数据做出更明智的决策,并将这些信息总结反馈给用户。

总之,Agent 响应的质量可以直接与模型对这些各种任务进行推理和操作的能力挂钩,包括选择正确工具的能力,以及这些工具的定义有多完善。就像厨师用新鲜食材精心制作菜品,并关注顾客反馈一样,代理依赖于合理的推理和可靠的信息来提供最佳结果。在下一节( 谷歌 AI Agent 白皮书 ~ 工具 )中,我们将深入探讨代理连接新鲜数据的各种方式。

53AI,企业落地大模型首选服务商

产品:场景落地咨询+大模型应用平台+行业解决方案

承诺:免费场景POC验证,效果验证后签署服务协议。零风险落地应用大模型,已交付160+中大型企业

联系我们

售前咨询
186 6662 7370
预约演示
185 8882 0121

微信扫码

和创始人交个朋友

回到顶部

 

加载中...

扫码咨询