支持私有云部署
AI知识库

53AI知识库

学习大模型的前沿技术与行业应用场景


谷歌 AI Agent 白皮书(2)--认知架构

发布日期:2025-03-24 07:54:28 浏览次数: 1594 来源:哆啦的AI产品实践录
推荐语

探索谷歌AI Agent的认知架构如何模仿人类决策过程。

核心内容:
1. 智能体目标达成的认知架构模型
2. 智能体核心功能:记忆管理、推理规划与环境交互
3. 主流提示工程框架及其应用实例分析

杨芳贤
53A创始人/腾讯云(TVP)最具价值专家

想象一位忙碌厨房中的主厨,其目标是为顾客烹制美味菜肴。这一过程遵循信息收集→规划→执行→调整的循环流程:

信息收集

获取顾客订单、检查储藏室与冷藏柜的食材库存。

内部推理与规划

基于现有资源(如食材种类、数量),推断可实现的菜肴及风味组合。

行动执行

具体操作:切配蔬菜、调配香料、煎制肉类。

动态调整

根据实时反馈(如食材耗尽、顾客口味评价)修正计划,并利用历史结果优化后续行动。

这一循环机制构成了厨师达成目标的独特认知架构,与智能体的运作逻辑高度相似。

认知架构:智能体的目标达成机制

正如主厨通过循环流程完成任务,智能体(Agent)的认知架构同样基于信息迭代处理→决策制定→行动优化的闭环机制实现目标。其核心依赖编排层(Orchestration Layer),该层承担以下关键功能:

记忆与状态管理:维护短期/长期记忆,追踪任务执行上下文。

推理与规划:利用快速演进的提示工程(Prompt Engineering)技术及框架,指导模型生成逻辑连贯的决策链。

环境交互增强:通过动态调整策略,提升智能体与外部环境交互的效率与任务完成率。

当前,语言模型的提示工程框架与任务规划研究进展迅速,以下是几种主流方法论(截至本文发布时)。

主流提示工程框架


ReAct(推理-行动协同)

核心机制:引导语言模型对用户查询进行推理(Reason)并触发行动(Act),支持带上下文示例或无示例场景。

优势

在多项任务中超越当前最优(SOTA)基线模型。

提升大语言模型(LLM)的人类可解释性可信度


思维链(Chain-of-Thought, CoT)

核心机制:通过中间推理步骤显式呈现模型的思考过程。

衍生技术

自洽性(Self-consistency):聚合多条推理路径的结果以提升准确性。

主动式提示(Active-prompt):动态选择最优示例优化上下文学习。

多模态CoT:融合文本、图像等多模态数据进行联合推理。


思维树(Tree-of-Thoughts, ToT)

核心机制:扩展CoT,允许模型并行探索多条推理路径,形成树状决策结构。

适用场景

需战略前瞻的任务(如复杂游戏、多步骤任务拆解)。

开放式问题求解(如创意生成、多方案比选)。


Agents(智能体) 可运用上述推理技术或其他多种技术,为用户的请求选择最佳后续行动。例如,假设一个智能体被编程使用 ReAct框架 来为用户查询选择正确的行动和工具,其执行流程可能如下:

  1. 用户向智能体发送查询

  2. 智能体启动ReAct流程

  3. 智能体向模型提供提示(prompt),要求模型生成下一步ReAct步骤及其对应输出:

    a. 问题(Question):来自用户查询的输入问题,随提示提供 

    b. 思考(Thought):模型对下一步行动的推理 

    c. 行动(Action):模型决定采取的下一步行动 

        i. 此处可进行工具选择 

        ii. 例如,行动可能是 [Flights, Search, Code, None]中的一个,前三个代        表模型可选择的具体工具,最后一个表示“不选择工具” 

    d. 行动输入(Action input):模型决定传递给工具的输入参数(若有) 

    e. 观察(Observation):行动/行动输入执行后的结果 

        i. 该思考/行动/行动输入/观察可重复N次(按需循环) 

    f. 最终答案(Final answer):模型针对原始用户查询生成的最终响应


4. ReAct循环结束,最终答案返回给用户


如图所示,模型(Model)、工具(Tools)和智能体配置(Agent Configuration)通过协同工作,能够基于用户原始查询返回基于事实的简明响应。尽管模型可能依赖先验知识进行猜测(产生幻觉),但在此案例中它选择调用工具(Flights)搜索实时外部信息。这些额外信息被反馈至模型,使其能够:

  • 基于真实数据做出更可靠的决策

  • 将信息整合后总结并返回给用户

总结而言,智能体的响应质量直接取决于模型在以下方面的能力:

  1. 对各类任务的推理和行动能力,包括选择正确工具的能力

  2. 工具的定义质量

正如厨师用新鲜食材烹饪菜肴并关注顾客反馈,智能体依赖健全的推理可靠的信息来交付最佳结果。下一节中,我们将深入探讨智能体连接最新数据的多种方式。


53AI,企业落地大模型首选服务商

产品:场景落地咨询+大模型应用平台+行业解决方案

承诺:免费场景POC验证,效果验证后签署服务协议。零风险落地应用大模型,已交付160+中大型企业

联系我们

售前咨询
186 6662 7370
预约演示
185 8882 0121

微信扫码

添加专属顾问

回到顶部

加载中...

扫码咨询