在2024年Snowflake峰会开发者日活动上,吴恩达教授发表了题为《如何通过Al智能体工作流推动比下一代基础模型更多的Al进步》(How Al Agentic workflows could drive more Al progress than even the next generation of foundation models的分享,把Agentic AI再次推向公众,并指出Agentic AI可能是比下一代基础模型更具潜力的AI发展方向。
此前OpenAI也在一篇白皮书《智能体式人工智能系统的治理实践》(Practices for Governing Agentic AI Systems)中提到过Agentic AI。图源:OpenAI白皮书
这恰恰也是澜码始终倡导的。因为在我看来,正如自动驾驶技术被业界从L0至L5分级以衡量其自动化水平,Agent也应当按照智能化程度被划分,而“Agentic AI ”可以更好地表达出了Agent的智能程度和「灰度」——Agent可以越来越复杂,并且随着大模型或行业的发展,它会变得越来越智能。正如吴恩达教授在文章中提到的:“与其以二元方式选择某个系统是否是Agent,不如将系统视为具有不同程度的Agent特性更有用。”此外,我认为对于Agentic AI 来说,最重要的是具备反思能力,能够探索环境、理解目标,这样就能够做到适应环境,并且独立完成目标,从而成为一种新质生产力,进一步推动全要素生产率的提升。为什么Agentic AI
是更具潜力的AI发展方向
Agentic AI即智能体式AI,是指被设计用来通过理解目标、导航复杂环境,并在最少的人工干预下执行任务的系统,能够通过自然语言输入独立和主动地完成端到端任务。通常被设计为更具自主性和适应性,不仅能处理数据,还做出决策、从互动中学习,并采取积极的步骤来实现复杂目标。
Agentic AI利用大型语言模型 (LLM)、可扩展的计算能力和庞大的数据集等不断进步,提供了一种更加动态和灵活的方法。它结合了强化学习(RL)和决策理论,可以从互动中学习并随时间优化,不仅能对情况做出反应,而且能积极地参与决策过程。也就是说,名词“Agent”仅用于表明某个产品或项目是否为AI Agent、是否具备了智能特性,而形容词“Agentic”则意味着AI产品或项目的Agentic特性的程度,即它们能否体现更强大的主动性、自治性和适应性。前者仍在探讨Agent产品或项目的相关特性,后者则在探讨产品的智能程度,显然后者更有意义。从AI Agent到Agentic AI system,即使当前所探讨的内容仍是AI Agent相关的技术、产品或解决方案,但立足点已经截然不同,我认为这是一个认知上的重大转变。如果说AI Agent仍然属于产品思维,Agentic AI System已经上升到战略思维。Agentic AI进一步代表了一类AI技术、产品、方案、生态乃至战略的总体集合,必然也会像GenAI等词汇一样被更多的组织放到其战略报告之中。从定义和概念而言,AI Agent是一种能够感知环境、进行决策和执行动作的智能实体。它们通常基于机器学习和人工智能技术,具备自主性和自适应性,在特定任务或领域中能够自主地进行学习和改进。其核心功能可以归纳为三个步骤的循环:感知、规划和行动。Agentic AI是具有更高程度自主性的AI系统,它们能够主动思考、规划和执行任务,而不仅仅依赖于预设的指令,它强调的是系统可以具有不同程度的“能动性”(Agentic特性),而不仅仅局限于被动执行指令。吴恩达教授总结和介绍了四种较为常见的设计模式,分别是反馈(Reflection)、工具使用(Tool Use)、规划(Planning)和多智能体协作(Multi-agent Collaboration)。图源:Andrew Ng
而之前Lilian Weng提到的以Plan+Tool Use+Short/Long Term Memory这样设计出来的Agent,看起来只能在人类将环境和目标用机器能够理解的方式教会Agent,这样Agent才可以进行规划,利用记忆、使用工具来完成任务。
OpenAI在白皮书中将Agentic AI systems概念化为「追求人类定义的目标,并在人类确定的环境中运行(并且经常与人类“队友”合作),而不是完全自主设定自己目标的系统」。
那么该如何构建和发展Agentic AI Systems?我认为,通过观察和理解物理世界中动物与人类如何发展智力,以及如何与周围环境互动,也许可以作为一种借鉴,去推演出智能体系统(Agentic AI Systems)应该如何构建和发展。那么我们先来看看在人类和动物的世界,本能、习惯、智力三者之间有什么关系?蜜蜂能回家,是因为它智力水平高还是因为本能?植物的向光性是否说植物的智力很高?事实上,蜜蜂能够回家是因为它们具有天生的本能,而非智力,虽然蜜蜂的行为看起来很复杂,但它们是受到基因编程的驱动,而不是通过智力来解决问题;植物的向光性也不是智力体现,而是生长机制。对人类而言,本能是生来就有的行为模式,是智力行为的基础。随着人类不断学习和实践,这些行为模式会逐渐固化为习惯,成为我们智力活动的一部分。本能是智力行为的原初动作,习惯是智力的固化。举个例子,会开车算不算智力?学习开车算智力,但学会开车后就变成了习惯。因此,我们可以认为习惯是智力发展的凝固,也是智力发展的平台与基础。智力是意识层面的分析与行动,智力被“自动化”后就成为了习惯。因此,可以说人类智力的发展就是在不断“自动化”的过程——识字自动化、阅读自动化、写作自动化。意识目标转念为智力形成,形成习惯。图源:澜码科技
我想说的是,智力是一个复杂的系统,它既包括内在的认知和情感过程,也包括外在的行为和结构表现,而且智力的发展是通过不断地自我调整和适应来实现的,而本能和习惯在这个过程中扮演着重要角色。相对应地,在计算机的世界,“本能”可以类比为程序员根据特定设计所编写的代码,一旦编写完成,便难以修改,因而更接近于人的本能;智力更像是机器学习中的模型,它能够处理各种类型的数据,只要这些数据按照模型要求的格式输入即可。另外,人类相较于动物最为显著的优势之一是语言能力,正是通过这种语言能力,人类的智能得以极大的发展和提升。所以人类的环境就(比动物和植物的环境)多了一个“智能世界”,或者其实在AI出现之前,智能世界就是我们的社会。人类通过各种本能、习惯、制度构建了社会的各种法律、道德等。而数字世界就是当前的互联网,有大量由人类创造的数码物。对应到Agentic AI的构建,如下图所示,我们认为Agentic AI有三类完全不同的环境:智能世界、数字世界和物理世界。图源:澜码科技
在吴恩达最新提到的Agentic Workflow中,提到了反思能力和多Agent协作,虽然也提到了Plan和Tool Use,但我认为,“反思”是十分重要的一个功能,这样Agentic AI就有了适应环境的能力,因为环境和目标是可以动态变化的。比如在企业服务环境中,任何一个流程的目标和上下文,有相对稳定的静态知识的结构,但也会由于公司内外环境的变化而调整。智能的作用就是通过反思来进行分析和实践,其中实践更是十分重要。在我看来,以往专家知识在企业内部的实践,其实就是大数据的处理过程,只不过这个过程主要依赖于专家的知识和经验,而不是通过机器学习算法来完成。人类的智能还主要体现在能够分析和实践两大方面。在分析领域,“智能”侧重于抽象思维、逻辑推理以及运用语言和数学的能力。而在实践层面,“智能”包含隐性知识,我们通常称之为“常识”。人类在对话和描述问题时,这类隐性知识往往不被明确提及,因为我们默认或假定人们都已经掌握了。隐性知识往往是在日常经验中而非正式教育环境下习得的,由于难以用言语明确表达,隐性知识在日常讨论中较少被触及,也正因为表达上的困难,隐性知识在问题解决中的关键作用往往被低估。那么为什么Agentic AI需要有适应环境的能力?在人类世界,智能不仅表现为对挑战和问题的反应性处理,还体现在主动探索和实践。聪明的个体不会仅限于在遇到困惑或问题时作出反应,他们积极寻找潜在的问题,并探索周围的环境,以便能够更加有效地预见并解决问题,解决问题的一种方法就是改变环境。此外,智能还体现在设定和实现目标的能力上。聪明的个体能够认识到问题的存在、精准地定义问题的本质,并将其表述出来。他们能够识别自己的知识盲点,并努力获取这些知识、填补这些空白。虽然聪明的人受益于结构化指令,但他们同样具备独立寻找和利用信息资源的能力。自动化机器决策的隐患是“不能只告诉机器要实现的目标,还要约束机器实现目标的方法”。
人类在决策过程中,常常需要在多个指标之间寻求平衡。然而,机器做出的决策可能会过分侧重于某些指标,从而不能达到理想的平衡状态。当人们表达自己的需求时,往往会优先考虑准确性,这会导致最终的结果偏离人们真正的期望。解决这类问题的办法,是让机器用人能明白的方法和逻辑进行决策。这里所说的“人能明白的方法和逻辑”就是我们需要赋予机器的本能。 在企业服务领域,Agent从自动化到智能化的发展过程,是应用场景变化的过程,也是人机关系演进的过程。在自动化过程中,AI的目标和环境是由人类员工预先给定和解释的,这些参数是固定不变的。然而,对智能化的期望则是AI能够通过分析和实践,与人类员工一起作出决策,帮助人类员工将知识显性化,收集实践的数据,并通过反思过程实现知识的完整闭环。而要释放智能潜力的前提是数字化、网络化企业内的线索。第一条线索是数字化的线索。随着数字化技术的发展,我们有条件对组织本身和系统本身记录静态和动态属性,从而及时、准确、完整地描述业务对象,从而为智能化奠定基础。第二条线索是网络化的线索,信息集成的线索有三条:横向集成,纵向集成和端到端集成。销售、制造、采购的集成属于横向集成,而管理和控制的融合则属于纵向集成。数字化线索的作用是让计算机获得静态和动态数据,做到“知己”。网络化线索的作用,是用来获取与系统相关的外部信息,实现“知彼”。由此可见,数字化和网络化会让计算机逐步具备“知己知彼”的能力,从而为计算机决策奠定基础。企业内的信息系统很多时候是在为业务对象进行赋值,用ID来表征,其实就是降低不同角色的员工之间交流时可能引起误解的风险。这些对于业务对象和业务关系的识别也属于企业内的AI Agent的本能,需要我们在设计时能够赋予。而这些数字化和网络化的线索其实就是企业中的数据。包括各种管理系统里的,也包括各种人类沟通系统中的数据,比如邮件、IM、会议系统中的数据等等。图源:澜码科技
人类所能利用的知识、信息和资源来自开放的空间,其能力可以灵活应对各种开放式问题。相比之下,机器获取信息、知识和资源的范围则局限于相对封闭的体系。
算法是为了特定目标而建立的,而人类却拥有一个能够综合处理知识的大脑,能够应对各种开放性的问题,并根据实际条件和要求,不断拓展信息和知识来源的边界,甚至不断提出或修正目标。在决策过程中,机器能够为人类提供更多的信息,而为了实现有效的人机协同决策,机器需要具备一定的认知能力,能够主动发现异常情况,并向人类推送相关的实践、异常、信息和知识,以便提醒人类做出决策,甚至提供可选方案,类似于人类的秘书和助手。在机器自主决策的过程中,人类需要适度干预机器的执行。一种方法是,在正常情况下由机器进行决策,遇到特殊问题时,决策权则转交给人类;另一种方法是,机器在完成决策后,需要经过人类的确认才能执行。澜码倡导的Agentic AI需要能够突破过去机器决策的局限性,通过和智能环境中的人类互动,主动发现数字环境中新的信息来源和知识来源,从而在工程实践中在更强大的大模型支持下,Agentic AI能够形成自我学习和反思的能力,以突破当下的发展瓶颈。而且我们相信,在专家知识的帮助下,AI Agent能够用更小的模型、更少的算力达到更好的效果。