反思能力是AI Agent 智能化的关键

发布日期：2024-07-02 18:02:10 浏览次数： 1554

在2024年Snowflake峰会开发者日活动上，吴恩达教授发表了题为《如何通过Al智能体工作流推动比下一代基础模型更多的Al进步》（How Al Agentic workflows could drive more Al progress than even the next generation of foundation models的分享，把Agentic AI再次推向公众，并指出Agentic AI可能是比下一代基础模型更具潜力的AI发展方向。

此前OpenAI也在一篇白皮书《智能体式人工智能系统的治理实践》（Practices for Governing Agentic AI Systems）中提到过Agentic AI。

图源：OpenAI白皮书

这恰恰也是澜码始终倡导的。因为在我看来，正如自动驾驶技术被业界从L0至L5分级以衡量其自动化水平，Agent也应当按照智能化程度被划分，而“Agentic AI ”可以更好地表达出了Agent的智能程度和「灰度」——Agent可以越来越复杂，并且随着大模型或行业的发展，它会变得越来越智能。

正如吴恩达教授在文章中提到的：“与其以二元方式选择某个系统是否是Agent，不如将系统视为具有不同程度的Agent特性更有用。”

此外，我认为对于Agentic AI 来说，最重要的是具备反思能力，能够探索环境、理解目标，这样就能够做到适应环境，并且独立完成目标，从而成为一种新质生产力，进一步推动全要素生产率的提升。

为什么Agentic AI

是更具潜力的AI发展方向

Agentic AI即智能体式AI，是指被设计用来通过理解目标、导航复杂环境，并在最少的人工干预下执行任务的系统，能够通过自然语言输入独立和主动地完成端到端任务。通常被设计为更具自主性和适应性，不仅能处理数据，还做出决策、从互动中学习，并采取积极的步骤来实现复杂目标。

Agentic AI利用大型语言模型（LLM）、可扩展的计算能力和庞大的数据集等不断进步，提供了一种更加动态和灵活的方法。它结合了强化学习（RL）和决策理论，可以从互动中学习并随时间优化，不仅能对情况做出反应，而且能积极地参与决策过程。

也就是说，名词“Agent”仅用于表明某个产品或项目是否为AI Agent、是否具备了智能特性，而形容词“Agentic”则意味着AI产品或项目的Agentic特性的程度，即它们能否体现更强大的主动性、自治性和适应性。前者仍在探讨Agent产品或项目的相关特性，后者则在探讨产品的智能程度，显然后者更有意义。

从AI Agent到Agentic AI system，即使当前所探讨的内容仍是AI Agent相关的技术、产品或解决方案，但立足点已经截然不同，我认为这是一个认知上的重大转变。如果说AI Agent仍然属于产品思维，Agentic AI System已经上升到战略思维。

Agentic AI进一步代表了一类AI技术、产品、方案、生态乃至战略的总体集合，必然也会像GenAI等词汇一样被更多的组织放到其战略报告之中。

从定义和概念而言，AI Agent是一种能够感知环境、进行决策和执行动作的智能实体。它们通常基于机器学习和人工智能技术，具备自主性和自适应性，在特定任务或领域中能够自主地进行学习和改进。其核心功能可以归纳为三个步骤的循环：感知、规划和行动。

Agentic AI是具有更高程度自主性的AI系统，它们能够主动思考、规划和执行任务，而不仅仅依赖于预设的指令，它强调的是系统可以具有不同程度的“能动性”（Agentic特性），而不仅仅局限于被动执行指令。

吴恩达教授总结和介绍了四种较为常见的设计模式，分别是反馈（Reflection）、工具使用（Tool Use）、规划（Planning）和多智能体协作（Multi-agent Collaboration）。

图源：Andrew Ng

而之前Lilian Weng提到的以Plan+Tool Use+Short/Long Term Memory这样设计出来的Agent，看起来只能在人类将环境和目标用机器能够理解的方式教会Agent，这样Agent才可以进行规划，利用记忆、使用工具来完成任务。

从人类智力的发展

推演如何构建Agentic AI

OpenAI在白皮书中将Agentic AI systems概念化为「追求人类定义的目标，并在人类确定的环境中运行（并且经常与人类“队友”合作），而不是完全自主设定自己目标的系统」。

那么该如何构建和发展Agentic AI Systems？

我认为，通过观察和理解物理世界中动物与人类如何发展智力，以及如何与周围环境互动，也许可以作为一种借鉴，去推演出智能体系统(Agentic AI Systems)应该如何构建和发展。

那么我们先来看看在人类和动物的世界，本能、习惯、智力三者之间有什么关系？

蜜蜂能回家，是因为它智力水平高还是因为本能？植物的向光性是否说植物的智力很高？事实上，蜜蜂能够回家是因为它们具有天生的本能，而非智力，虽然蜜蜂的行为看起来很复杂，但它们是受到基因编程的驱动，而不是通过智力来解决问题；植物的向光性也不是智力体现，而是生长机制。

对人类而言，本能是生来就有的行为模式，是智力行为的基础。随着人类不断学习和实践，这些行为模式会逐渐固化为习惯，成为我们智力活动的一部分。本能是智力行为的原初动作，习惯是智力的固化。

举个例子，会开车算不算智力？学习开车算智力，但学会开车后就变成了习惯。因此，我们可以认为习惯是智力发展的凝固，也是智力发展的平台与基础。智力是意识层面的分析与行动，智力被“自动化”后就成为了习惯。

因此，可以说人类智力的发展就是在不断“自动化”的过程——识字自动化、阅读自动化、写作自动化。意识目标转念为智力形成，形成习惯。

图源：澜码科技

我想说的是，智力是一个复杂的系统，它既包括内在的认知和情感过程，也包括外在的行为和结构表现，而且智力的发展是通过不断地自我调整和适应来实现的，而本能和习惯在这个过程中扮演着重要角色。

相对应地，在计算机的世界，“本能”可以类比为程序员根据特定设计所编写的代码，一旦编写完成，便难以修改，因而更接近于人的本能；智力更像是机器学习中的模型，它能够处理各种类型的数据，只要这些数据按照模型要求的格式输入即可。

另外，人类相较于动物最为显著的优势之一是语言能力，正是通过这种语言能力，人类的智能得以极大的发展和提升。

所以人类的环境就（比动物和植物的环境）多了一个“智能世界”，或者其实在AI出现之前，智能世界就是我们的社会。人类通过各种本能、习惯、制度构建了社会的各种法律、道德等。而数字世界就是当前的互联网，有大量由人类创造的数码物。

对应到Agentic AI的构建，如下图所示，我们认为Agentic AI有三类完全不同的环境：智能世界、数字世界和物理世界。

图源：澜码科技

Agentic AI 需要具备反思能力

在吴恩达最新提到的Agentic Workflow中，提到了反思能力和多Agent协作，虽然也提到了Plan和Tool Use，但我认为，“反思”是十分重要的一个功能，这样Agentic AI就有了适应环境的能力，因为环境和目标是可以动态变化的。

比如在企业服务环境中，任何一个流程的目标和上下文，有相对稳定的静态知识的结构，但也会由于公司内外环境的变化而调整。智能的作用就是通过反思来进行分析和实践，其中实践更是十分重要。

在我看来，以往专家知识在企业内部的实践，其实就是大数据的处理过程，只不过这个过程主要依赖于专家的知识和经验，而不是通过机器学习算法来完成。

人类的智能还主要体现在能够分析和实践两大方面。在分析领域，“智能”侧重于抽象思维、逻辑推理以及运用语言和数学的能力。而在实践层面，“智能”包含隐性知识，我们通常称之为“常识”。

人类在对话和描述问题时，这类隐性知识往往不被明确提及，因为我们默认或假定人们都已经掌握了。隐性知识往往是在日常经验中而非正式教育环境下习得的，由于难以用言语明确表达，隐性知识在日常讨论中较少被触及，也正因为表达上的困难，隐性知识在问题解决中的关键作用往往被低估。

那么为什么Agentic AI需要有适应环境的能力？

在人类世界，智能不仅表现为对挑战和问题的反应性处理，还体现在主动探索和实践。聪明的个体不会仅限于在遇到困惑或问题时作出反应，他们积极寻找潜在的问题，并探索周围的环境，以便能够更加有效地预见并解决问题，解决问题的一种方法就是改变环境。

此外，智能还体现在设定和实现目标的能力上。聪明的个体能够认识到问题的存在、精准地定义问题的本质，并将其表述出来。他们能够识别自己的知识盲点，并努力获取这些知识、填补这些空白。虽然聪明的人受益于结构化指令，但他们同样具备独立寻找和利用信息资源的能力。

企业服务场景下，

如何将自动化发展为智能化？

自动化机器决策的隐患是“不能只告诉机器要实现的目标，还要约束机器实现目标的方法”。

人类在决策过程中，常常需要在多个指标之间寻求平衡。然而，机器做出的决策可能会过分侧重于某些指标，从而不能达到理想的平衡状态。当人们表达自己的需求时，往往会优先考虑准确性，这会导致最终的结果偏离人们真正的期望。

解决这类问题的办法，是让机器用人能明白的方法和逻辑进行决策。这里所说的“人能明白的方法和逻辑”就是我们需要赋予机器的本能。

在企业服务领域，Agent从自动化到智能化的发展过程，是应用场景变化的过程，也是人机关系演进的过程。

在自动化过程中，AI的目标和环境是由人类员工预先给定和解释的，这些参数是固定不变的。然而，对智能化的期望则是AI能够通过分析和实践，与人类员工一起作出决策，帮助人类员工将知识显性化，收集实践的数据，并通过反思过程实现知识的完整闭环。

而要释放智能潜力的前提是数字化、网络化企业内的线索。

第一条线索是数字化的线索。随着数字化技术的发展，我们有条件对组织本身和系统本身记录静态和动态属性，从而及时、准确、完整地描述业务对象，从而为智能化奠定基础。

第二条线索是网络化的线索，信息集成的线索有三条：横向集成，纵向集成和端到端集成。销售、制造、采购的集成属于横向集成，而管理和控制的融合则属于纵向集成。

数字化线索的作用是让计算机获得静态和动态数据，做到“知己”。网络化线索的作用，是用来获取与系统相关的外部信息，实现“知彼”。

由此可见，数字化和网络化会让计算机逐步具备“知己知彼”的能力，从而为计算机决策奠定基础。

企业内的信息系统很多时候是在为业务对象进行赋值，用ID来表征，其实就是降低不同角色的员工之间交流时可能引起误解的风险。这些对于业务对象和业务关系的识别也属于企业内的AI Agent的本能，需要我们在设计时能够赋予。

而这些数字化和网络化的线索其实就是企业中的数据。包括各种管理系统里的，也包括各种人类沟通系统中的数据，比如邮件、IM、会议系统中的数据等等。

图源：澜码科技

人类所能利用的知识、信息和资源来自开放的空间，其能力可以灵活应对各种开放式问题。相比之下，机器获取信息、知识和资源的范围则局限于相对封闭的体系。

算法是为了特定目标而建立的，而人类却拥有一个能够综合处理知识的大脑，能够应对各种开放性的问题，并根据实际条件和要求，不断拓展信息和知识来源的边界，甚至不断提出或修正目标。

在决策过程中，机器能够为人类提供更多的信息，而为了实现有效的人机协同决策，机器需要具备一定的认知能力，能够主动发现异常情况，并向人类推送相关的实践、异常、信息和知识，以便提醒人类做出决策，甚至提供可选方案，类似于人类的秘书和助手。

在机器自主决策的过程中，人类需要适度干预机器的执行。一种方法是，在正常情况下由机器进行决策，遇到特殊问题时，决策权则转交给人类；另一种方法是，机器在完成决策后，需要经过人类的确认才能执行。

澜码倡导的Agentic AI需要能够突破过去机器决策的局限性，通过和智能环境中的人类互动，主动发现数字环境中新的信息来源和知识来源，从而在工程实践中在更强大的大模型支持下，Agentic AI能够形成自我学习和反思的能力，以突破当下的发展瓶颈。

而且我们相信，在专家知识的帮助下，AI Agent能够用更小的模型、更少的算力达到更好的效果。

53AI，大模型落地应用首选服务商

定位：开箱即用的大模型落地应用平台

承诺：先做场景POC验证，看到效果再签署服务协议。零风险落地应用大模型，已交付160+中大型企业

年轻人！来一起搞AI吗?

如果你看见AI对商业世界的变革，欢迎来和我们一起探索~

岗位：销售经理

查看详情

岗位：项目经理

查看详情

岗位：产品经理

查看详情

岗位：测试工程师

查看详情

160+中大型企业正在使用53AI

立即咨询申请演示

百度智能云邀53AI：共创AI新纪元，启航智能新时代

2024-05-27

钉钉恒星计划：53AI与百余位企业家及钉钉生态伙伴，共议“AI 浪潮下的新机遇”

2024-05-22

热点资讯

神经网络算法 - 一文搞懂模型预训练Pre-training

2024-04-24

最强 GPT 免费使用！GPT4O 开启多模态新时代！

2024-05-14

实测：本地跑llama3:70B需要什么配置

2024-04-24

超简单在本地部署Llama3的方案

2024-04-23

“大数据+”医疗

2024-04-11

全民AI时代：手把手教你用Ollama & AnythingLLM搭建AI知识库，无需编程，跟着做就行！

2024-04-26

RAG系列04：使用ReRank进行重排序

2024-03-22

吴恩达站台畅聊Agent Workflow 以及 4 种主流设计模式，LLM应用开发的新热点

2024-03-29

OLLama详细的 api 介绍不完全指南 python 直接调用 OLLama api 翻译助手演示

2024-04-12

MaxKB：基于LLM大语言模型开箱即用的知识库问答系统

2024-04-25

大家都在问

下一代 RAG 技术来了！微软正式开源 GraphRAG：大模型行业将迎来新的升级？

2024-07-04

检索生成(RAG) vs 长文本大模型：实际应用中如何选择？

2024-07-04

实用指南｜如何提升 RAG Pipeline 效果？

2024-07-03

实测：开源轻量化模型Gemma 2 在 A4000 GPU 上表现如何？

2024-07-02

研发AI产品过程中，没有自研的数据处理以及机器学习平台时，可以使用哪些平台？

2024-07-02

为什么很多人都放弃LangChain了？

2024-07-01

ChatGPT、Claude的数据分析能力已经到了何种水平？

2024-07-01

【RAG论文】检索信息中的噪音是如何影响大模型生成的？

2024-07-01

企业大模型落地应用平台

全员+AI

业务+AI

AIx业务

大模型咨询

大模型定制

年轻人！来一起搞AI吗?

岗位：销售经理

岗位：项目经理

岗位：产品经理

岗位：测试工程师

相关资讯

160+中大型企业正在使用53AI

百度智能云邀53AI：共创AI新纪元，启航智能新时代

钉钉恒星计划：53AI与百余位企业家及钉钉生态伙伴，共议“AI 浪潮下的新机遇”

热点资讯

神经网络算法 - 一文搞懂模型预训练Pre-training

最强 GPT 免费使用！GPT4O 开启多模态新时代！

实测：本地跑llama3:70B需要什么配置

超简单在本地部署Llama3的方案

“大数据+”医疗

全民AI时代：手把手教你用Ollama & AnythingLLM搭建AI知识库，无需编程，跟着做就行！

RAG系列04：使用ReRank进行重排序

吴恩达站台畅聊Agent Workflow 以及 4 种主流设计模式，LLM应用开发的新热点

OLLama详细的 api 介绍不完全指南 python 直接调用 OLLama api 翻译助手演示

MaxKB：基于LLM大语言模型开箱即用的知识库问答系统

大家都在问

下一代 RAG 技术来了！微软正式开源 GraphRAG：大模型行业将迎来新的升级？

检索生成(RAG) vs 长文本大模型：实际应用中如何选择？

实用指南｜如何提升 RAG Pipeline 效果？

实测：开源轻量化模型Gemma 2 在 A4000 GPU 上表现如何？

研发AI产品过程中，没有自研的数据处理以及机器学习平台时，可以使用哪些平台？

为什么很多人都放弃LangChain了？

ChatGPT、Claude的数据分析能力已经到了何种水平？

【RAG论文】检索信息中的噪音是如何影响大模型生成的？

企业大模型落地应用平台

全员+AI

业务+AI

AIx业务

大模型咨询

大模型定制

年轻人！来一起搞AI吗?

岗位：销售经理

岗位：项目经理

岗位：产品经理

岗位：测试工程师

相关资讯

160+中大型企业正在使用53AI

百度智能云邀53AI：共创AI新纪元，启航智能新时代

钉钉恒星计划：53AI与百余位企业家及钉钉生态伙伴，共议“AI 浪潮下的新机遇”

热点资讯

神经网络算法 - 一文搞懂模型预训练Pre-training

最强 GPT 免费使用！GPT4O 开启多模态新时代！

实测：本地跑llama3:70B需要什么配置

超简单在本地部署Llama3的方案

“大数据+”医疗

全民AI时代：手把手教你用Ollama & AnythingLLM搭建AI知识库，无需编程，跟着做就行！

RAG系列04：使用ReRank进行重排序

吴恩达站台畅聊Agent Workflow 以及 4 种主流设计模式，LLM应用开发的新热点

OLLama详细的 api 介绍 不完全指南 python 直接调用 OLLama api 翻译助手演示

MaxKB：基于LLM大语言模型开箱即用的知识库问答系统

大家都在问

下一代 RAG 技术来了！微软正式开源 GraphRAG：大模型行业将迎来新的升级？

检索生成(RAG) vs 长文本大模型：实际应用中如何选择？

实用指南 ｜ 如何提升 RAG Pipeline 效果？

实测：开源轻量化模型Gemma 2 在 A4000 GPU 上表现如何？

研发AI产品过程中，没有自研的数据处理以及机器学习平台时，可以使用哪些平台？

为什么很多人都放弃LangChain了？

ChatGPT、Claude的数据分析能力已经到了何种水平？

【RAG论文】检索信息中的噪音是如何影响大模型生成的？

OLLama详细的 api 介绍不完全指南 python 直接调用 OLLama api 翻译助手演示

实用指南｜如何提升 RAG Pipeline 效果？