微信扫码
添加专属顾问
我要投稿
Google白皮书深度解析,AI代理的关键知识点一网打尽。 核心内容: 1. AI代理定义及其重要性 2. 行业领袖对AI代理的看法 3. AI代理如何改变行业和业务运作
本文是我推出的一个名为“10 个常见问题解答”的新系列的一部分。在本系列中,我旨在通过回答关于该主题的十个最常见问题来分解复杂的概念。我的目标是使用简单的语言和相关的类比,使这些想法易于理解。
图片来自 Solen Feyissa 在 Unsplash
Google 于 2024 年 9 月发表了一篇名为“Agents”的论文,作者是 Julia Wiesinger、Patrick Marlow 和 Vladimir Vuskovic。最近,这篇论文在 Twitter 上疯传。我通读了整篇论文(所以您不必这样做),并回答了十个关键问题,以帮助您深入了解 AI 代理。这篇文章是您开始并对 AI 代理感到兴奋所需要的一切。
生成式 AI 代理可以定义为试图通过观察世界并利用它们所拥有的工具采取行动来实现目标的应用程序。代理是自主的,可以独立于人为干预而行动。您可以通过人类的简单例子来理解它。我们人类非常擅长学习复杂的主题和混乱的模式识别,但我们使用外部工具,如书籍、互联网等。同样,我们可以训练基础 AI 模型来访问实时信息并据此采取行动。
像 Mark Zuckerberg(META 首席执行官)、Jensen Huang(NVIDIA 首席执行官)这样的行业领导者一直在称赞 AI 代理。Mark Zuckerberg 评论说
AI 代理的数量将超过人类,因为企业和个人会创建反映其价值观并代表他们与世界互动的 AI 代理
同样,Jensen Huang 将 AI 代理称为
可以彻底改变各个行业领域的“数字劳动力”,再加上它们的自主程度,可以帮助部署它们的公司在无需人为干预的情况下顺利运行其业务和工作空间
了解 AI 代理至关重要,因为它们代表了语言模型与外部世界交互方式的革命性转变。这些代理可以对医疗保健、金融、零售等行业产生变革性影响,从而塑造我们的生活和工作方式。
代理可以推理出为了实现其目标接下来应该做什么,即使没有来自人类的明确信息。驱动代理行为、行动和决策的组件组合可以描述为_认知架构_。
认知架构及其组件
认知架构由三个组件构成:
ReAct 框架示例
正如您在上面的图中看到的,代理使用 ReAct 等推理框架来达到其最终目标。这是一个迭代过程,它提取信息、做出明智的决策,并根据先前的输出完善后续行动。
认知架构的核心是编排层,它负责维护内存、状态、推理和规划。
工具弥合了基础模型与外部世界之间的差距。无论您向模型投入多少训练数据,它仍然缺乏与外部世界交互的技能。函数、扩展、数据存储和插件都是为模型提供这种关键能力的方式。
截至该论文的发布日期(2024 年 9 月),Google 支持三种主要类型的工具,这些工具能够与模型交互:
Extensions 与 API 交互
Extensions 允许 agents 无缝地执行 APIs,而不管其底层实现如何。Extensions 通过以下方式弥合了 agent 和 API 之间的差距:
使用 extensions 的关键优势在于,agent 可以根据运行时的示例决定哪个 extension(如果有)适合解决用户的查询。
Agent、Extensions 和 API 之间的一对多关系
另一方面,functions 为开发人员提供了对应用程序中数据流更细粒度的控制。一个模型可以获取一组未知的 functions,并根据其 specification 决定何时使用每个 function 以及 function 需要哪些参数。
Extension 和 function 调用的客户端与 Agent 端控制
Functions 与 Extensions 在几个方面有所不同,最显着的是:
注意:如果您想详细了解 function 调用及其示例,请参考原始论文的第 23 页(底部链接)。
基础语言模型由于未接触到实时信息而具有知识截止。假设一个模型在 2024 年 9 月之前的数据上进行训练;它将无法回答有关 2024 年 9 月之后发生的事件的问题。为了解决这个问题,我们可以使用 Data Stores。
Data store 将 agent 连接到不同的信息来源
Data stores 允许开发人员以原始格式向 agent 提供额外的数据,从而消除了耗时的数据转换、模型重新训练或微调的需求。Data stores 将传入的文档转换为一组 vector database embeddings (一种数据的高维或数学表示),agent 可以在运行时使用这些 embeddings 来提取其需要的信息,以补充其下一个操作或对用户的响应。Data stores 实现最著名的例子之一是基于 Retrieval Augmented Generation (RAG) 的应用程序。
基于 RAG 的示例应用程序,具有 ReAct 推理/规划
注意:RAG 应用程序的详细生命周期在原始论文中提供(参考第 29 页和图 13)
使用模型的一个关键方面是它们在生成输出时选择正确工具的能力。为了实现最佳模型性能并帮助模型获得对特定类型知识的访问权限,存在几种方法:
**In-Context Learning:**此方法在推理时为通用模型提供 prompt、工具和少量示例,这使其可以即时学习如何以及何时将工具用于特定任务。例如,ReAct 框架。
**Retrieval-based in-context learning:**此技术通过从外部内存中检索与工具和相关示例最相关的信息来动态填充模型 prompt。
**Fine-tuning based learning:**此方法涉及在推理之前使用更大规模的特定示例数据集来训练模型。这有助于模型在接收任何用户查询之前了解何时以及如何应用某些工具。
如果这对于您来说太技术性了,我们可以用一个简单的类比来理解这三种方法:
到目前为止,我们探讨了 AI Agent 的核心概念,但构建生产级 AI Agent 需要将它们与额外的工具集成,例如用户界面、评估框架和持续改进机制。Google 的 _Vertex AI_ 平台通过提供完全托管的环境来简化此过程,其中涵盖了前面提到的所有基本要素。我们还可以利用开源库,如 _LangChain_ 和 _LangGraph_ 来制作原型 Agent。这些流行的开源库允许用户通过将逻辑、推理和工具调用序列 “链接” 在一起以回答用户的查询来构建客户 Agent。
基于 Vertex AI 平台构建的端到端 Agent 架构示例
注意:如果您想使用 Vertex AI 平台构建自定义 AI Agent,可以参考他们的文档 here。
AI Agent 的未来充满了令人兴奋的进步,我们才刚刚触及了可能性的皮毛。随着工具变得越来越复杂,推理能力得到增强,Agent 将能够解决越来越复杂的问题。
此外,“Agent 链接” 的战略方法将继续获得发展势头。通过结合专业的 Agent——每个 Agent 都擅长于其特定行业或任务——我们可以创建一个 Agent 专家组合方法,能够跨各种行业和问题领域提供卓越的结果。
53AI,企业落地大模型首选服务商
产品:场景落地咨询+大模型应用平台+行业解决方案
承诺:免费场景POC验证,效果验证后签署服务协议。零风险落地应用大模型,已交付160+中大型企业
2024-08-13
2024-06-13
2024-08-21
2024-09-23
2024-07-31
2024-05-28
2024-08-04
2024-04-26
2024-07-09
2024-09-17
2025-04-20
2025-04-18
2025-04-16
2025-04-13
2025-04-13
2025-04-13
2025-04-12
2025-04-12