支持私有云部署
AI知识库

53AI知识库

学习大模型的前沿技术与行业应用场景


AI Agent:大模型落地应用的“最后一公里”?

发布日期:2025-04-01 05:31:29 浏览次数: 1592 作者:但丁自留地
推荐语

AI Agent将如何革新我们的工作与生活?这篇文章深入探讨了AI Agent在大模型落地应用中的关键作用。

核心内容:
1. AI Agent的定义及其在AI发展中的位置
2. AI Agent的自主性和多模态能力
3. AI Agent在实际应用中的案例分析

杨芳贤
53A创始人/腾讯云(TVP)最具价值专家
前言

自从ChatGpt面世以来,AI继续如火如荼地发展,一次次震惊世人。最近DeepSeek的横空出世,更是因为它的推理模型,首创的推理链并且将模型的思考推理过程展示给用户,以及极低的模型训练成本,一举夺得各大媒体头条,讨论热度居高不下,产品页面始终“服务器繁忙”。

在外界大众看来,人工智能已经能够媲美人类,将来将替代大部分工作的言论也是甚嚣尘上。这种观点不能说是完全正确,但也确实反映了一种趋势和担忧。至少会使用AI的人未来大概率淘汰不会使用AI的人,初级的文字工作者、翻译、设计师、程序员貌似也都离被淘汰不远了。。

但是好像还是各大模型百花齐放,在问答助手方面不断震惊我们的眼球,扮演着革命搜索引擎的角色,但还没有出现那种核弹级的应用出来。

从23年ChatGpt出现不久,AI Agent就被认为将是AI发展的方向,但23年火的是各大模型厂商;24年Agent继续被看好,结果火的是AI编程(讲道理AI编程离不开Agent);25年Agent继续被看好,还有观点认为今年将是Agent元年。

今年会不会是Agent元年,是不是会迎来更多强力AI based应用落地?这篇文章就简单分析一下AI Agent的作用以及它为什么会被认为是应用落地的主要因素之一,探讨一下未来Agent是否会迎来爆发式发展。

什么是Agent?

如果说这波人工智能的发展,起点是LLM(大语言模型),山顶是AGI(通用人工智能),那么Agent可能就是从起点到山顶的一条可能的中间路径。

毕竟智能模型受限于训练数据的规模、知识边界、时效性等问题,无法处理模型之外的复杂任务。Agent是一种可以通过获取外部工具的使用权,突破模型的能力边界的程序。多模态模型相当于它的大脑,通过观察周围环境来自主规划、运用各种可用工具来实现既定任务目标。

可以看出,智能体的特征即具有自主性,在明确目标后可以在没有人类干预的情况下,自行推理并采取方案与外界交互,实现任务目标。

当前已经有一些AI Agent的实例,比如:

  1. 各大互联网厂商广泛使用的智能客服

  2. 各种营销骚扰电话

  3. 智能家居管家

  4. AI效率工具,会议助手等


虽然某些场景它们底层依赖的可能并不是LLM,但是它们都可以认为是Agent的范畴,只是智能程度不够,急需大模型来提智。

谷歌的智能体白皮书将驱动Agents行为、行动和决策的基础组件称为认知架构,认为其认知架构主要包括:Model(模型)、Tools(工具)、Orchestration(编排层)三个核心部分

模型

模型作为Agent中的核心决策单元,类似于大脑。根据不同Agent的定位可以是单一模态模型也可以是多模态模型,可以是通用模型也可以是特定垂类专有模型,模型规模也可大可小。

模型除了承担核心决策外,也承担了与外界信息交互的作用。AI+应用的第一步就是UI革命,不需要各种形式的表单了,只需要一个输入框,信息输入就是自然语言式的,AI负责语义解析,从中提取出任务信息。还有一种语音交互式的界面,本质上也是信息输入框,只是需要一个多模态模型识别语音形式的输入信息。

工具

尽管LLM的发展,在语义识别和内容生成方面肯定会越来越出色,但是它们无法直接与外部世界交互。Agents的价值就在于引入了工具,弥补了这一不足,使Agents可以和外部服务交互,从而超越模型的能力限制。

工具可以有多种形式,复杂程度各异,可以是一个HTTP接口,也可以是一个Java Bean,也可以是是一个Web Url等等。例如,我可以提供一个实时天气预报网站供Agent来获取实时天气数据来规划旅行建议任务;我也可以提供一个后端数据库更新接口,供Agent来对接企业业务逻辑。

像DeepSeek的联网搜索功能就是Agent的一个例子。

最近OpenAI发布的Operator是一个更为强大的例子,赋予了模型操作用户浏览器的能力。

下面这个例子显示了Operator是如何自行帮用户实现“寻找特定条件的露营地”的任务:

去年大火的各种AI编程工具也是体现Agent强大的例子,你可以说出你的任务,模型会自动根据当前代码仓库以及联网搜索能力,实现自行选择实现方案、问题纠错、修改代码等功能。

编排层

编排层定义了一个循环过程,负责管理智能体的信息接收、内部推理以及后续行动决策。这个循环通常会持续到智能体达成目标或者达到终止条件为止。

比如我们在使用AI编程工具时,可能需要持续多轮对话,不断地补充提供上下文信息才能让Agent获得完成任务的足够信息。

编排层的复杂程度也是跟随Agent的类型和任务需求的不同而不同,有些循环可能只包含简单的计算和决策规则,而另外的循环可能涉及链式逻辑、额外的算法或其他技术。

智能体认知架构的核心是编排层,有观点认为“Building AI Agents is 5% AI and 100% Software Engineering”,构建一个AI Agent是5%的AI以及100%的工程。也许比较绝对,但也说明了软件工程在其中的重要作用。编排层负责管理记忆(memory)、状态(state)、推理(reasoning)和规划(planning)等功能。利用提示词工程技术和相关的框架来指导推理和规划,使智能体能有效地和外部交互完成任务。

提示词工程框架和任务规划领域的研究正在快速发展,以下是几种比较受欢迎的框架和推理技术:

1)ReAct(Reasoning and Action是一个提示词工程框架,为模型提供一种思维过程策略,可以对用户查询进行推理和行动,不论是否有上下文示例。ReAct提示方式的性能超过了多个目前最优的基准,并提高了LLM的人机交互能力和可信度。

2)CoT(Chain-of-Thought)是一个通过中间步骤实现推理能力的提示词工程框架。包括多个子技术,如自我一致性、主动提示和多模态CoT,这些技术根据场景各有优势。

3)ToT(Tree-of-thoughts)是一个是特别适合于探索和战略前瞻任务的提示词框架。在CoT基础上进行了扩展,允许模型探索多条思维路径,作为模型解决通用问题的中间步骤。

智能体可以使用某一种推理技术来为用户请求选择最佳的下一步动作。

谷歌白皮书中给了一个编排层中使用ReAct推理的示例图:

  1. 用户向智能体发出任务请求,“需要订一张从xx到xx的机票”

  2. 智能体启动ReAct序列

  3. 智能体向模型提供提示词,要求生成下一步行动及其对应的输出

  • 问题:用户原始的输入问题和提示词一起提供给模型
  • 思考:模型关于下一步行动的思考
  • 行动:模型对下一步行动的决定,这个过程中涉及工具的选择,从图中可以看见,这个智能体拥有四个外部工具的访问权限:Flights、Search、Code、Calc
  • 行动输入:模型根据任务和提示词,判断是否需要工具以及需要使用哪个工具,并且从上下文信息中组装出工具的输入内容
  • 观察:观察工具调用后的输出结果,需要的话这个思考到观察的过程可能重复执行多次
  • 最终答案:解决用户查询的任务后返回结果或者提示用户进一步补充信息

AI应用的落地


AI Agent如何赋能行业

AI模型的发展,颠覆了传统的软件工程。传统的软件工程讲究一个“精准、结构化”,特定的输入一定会得到特定的输出;而跟大模型的交互,特点就是一个非结构化、存在幻觉、输出不可控不精确。

在工业场景,如果要接入大模型,势必需要解决大模型处于业务链路环节中对上下游数据对接串联过程中的不精确问题。

因此如果大模型的发展,要想脱离纯工具属性,实实在在产生可落地的应用场景,一方面要脱离模型能力的限制,获得访问外部业务服务的权限,另一方面需要解决响应数据精准、结构化的问题。

这恰好就是Agent的能力:赋予大模型执行外部能力的权限,大模型负责决策和行动,实际的做事业务逻辑还是工程化团队实现好的,即响应数据精准、可控、结构化。

互联网发展这么久,各行各行都已经做得比较成熟了,感觉大的创新很难出现了。你看即使5G出来这么久也没有出来什么杀手级的应用落地。所以我觉得像众多大佬说的那样,AI赋能业务落地可能更多的是“用AI将业务重做一遍”,即利用AI技术对传统行业进行改造和升级,从而提高效率、降低成本、改善用户体验。

AI+行业重塑业务

对比一下AI+和互联网+的差异:


互联网+
AI+
依赖技术
使用互联网技术重塑传统行业
使用AI技术重塑业务
改造目标
业务流程线上化
业务流程智能化
实现方式
业务代码
AI流程编排
交互方式
表单输入
语义输入
工程特点
结构化
非结构化

所以我觉得,AI+应用的变革更多的可能还是在于UI交互的变革:从前需要填写表单实现的人机交互,未来只需要通过自然语言跟智能模型沟通即可,真正实现动动嘴完成任务。

当然有一些应用的创新得益于多模态模型的发展,原来做不到或者传统机器学习算法实现很困难导致无法实用的功能,比如智能图像识别、大数据量下的特征分析等,可能会对智能辅助医疗、药物研发、智能金融方面带来意想不到的应用前景。但是这方面可能更多是依赖模型自有的能力,跟本文Agent的主题相关性不大了。

AI Agent的挑战

虽然分析下来,Agent的应用前景很广泛,有雄心在AI方面落地的厂商势必绕不开Agent,但是我认为要在工业领域实实在在地落地AI Agent应用也存在一些挑战:

  1. 技术挑战 
    首当其冲就是技术方面的挑战。大模型技术还比较新,Agent的研发相对来说也还比较复杂,对Agent的集成应用离不开既懂AI同时工程能力又不弱的人才;Agent的发展也需要能力的建设和业务方面的探索,目前缺乏较为成熟的解决方案;Agent在复杂多变的业务环境理解和正确且高效的决策方面是否具备工业上的可行性还有待进一步的研究验证。
  2. 合规挑战 
    其次就是企业在合规方面的考量。Agent依赖的外部能力通常都是企业的核心业务逻辑,如何保证数据隐私?私有化模型又很难承担高昂的成本。
  3. 数据质量 
    然后数据质量方面,某些AI+应用可能需要深度依赖自身垂类场景的业务知识数据,大量的、高质量的数据积累可能也是一道难以逾越的难关。毕竟我曾待过的许多大厂都难有成体系、高质量的数据留存。
  4. 业务切入点 
    最后就是业务的切入点上难以抉择。也许高质量的AI Agent应用会首先从创业公司涌现出来。大公司业务庞杂,利益牵连广泛,决策上很难选择业务的切入点,尤其是核心业务功能的AI化。可能大公司开放服务能力,小公司开发AI Agent接入会是一种可行的方式。

总结

AI的发展越来越快,不管25年会不会真的成为Agent元年,我相信今年肯定还会有很多类似的“ChatGpt时刻”、“DeepSeek时刻”出来震惊我们的眼球。

大模型要想有更有业务价值的应用出现,势必不能只发展模型自身的能力,一定需要与各行各业的业务深度集成。因此势必需要突破模型能力的自身限制,获得访问外部工具的能力 。所以在目前大模型提供的接口能力前提下,应用厂商要想有所作为,发力 Agent可能确实是一个途径,否则只能在各类智能助手方面做一些套壳的玩具性质的应用罢了。

类似去年一大批的AI编程工具的出现,你觉得25年会不会出现杀手级的AI+应用?25年会成为Agent的元年吗?



这篇文章从非技术的角度来分析了一下AI Agent的发展趋势,下一篇准备结合我在工作的探索和实践,从技术实战角度讲一下如何在工作中构建一个生产级的AI Agent模型框架。

敬请期待!

53AI,企业落地大模型首选服务商

产品:场景落地咨询+大模型应用平台+行业解决方案

承诺:免费场景POC验证,效果验证后签署服务协议。零风险落地应用大模型,已交付160+中大型企业

联系我们

售前咨询
186 6662 7370
预约演示
185 8882 0121

微信扫码

添加专属顾问

回到顶部

加载中...

扫码咨询