AI知识库

53AI知识库

学习大模型的前沿技术与行业应用场景


(二)初识AI Agent—以大模型为核心的智能体
发布日期:2024-03-14 16:21:03 浏览次数: 2282 来源: AI产品经理研习与实践

AI Agent的类型


作模式来看,AI智能体可以分为单Agent、多Agent、混合Agent(人机交互Agent)三种类型:


图片

单Agent这种代理侧重于执行单一任务或一系列相关任务,且不需要与其他智能体进行交互。单个代理可以根据任务执行不同的操作,如需求分析、项目读取、代码生成等。例如手机上的Siri或Google Assistant,你可以要求它设置闹钟、查询天气、播放音乐等,每个请求都是由单个AI代理独立处理的,它根据你的命令执行特定的任务。

图片

图:单代理应用场景的三个层次:任务导向、创新导向、生命周期导向。


多Agent:这种模式侧重于智能体之间的互动(合作或对抗)和信息共享,多个智能体协同工作,相互交流信息,共同完成更复杂的任务或目标。多agent应用场景在软件行业开发、智能生产、企业管理等高度协同的工作中非常有帮助。

图片

图:多代理应用场景的两种交互形式:合作型互动、对抗型互动。



混合Agent:这种模式中,人工智能系统和人类共同参与决策过程,交互合作完成任务,强调的是人机协作的重要性和互补性。智慧医疗、智慧城市等专业领域可以使用混合智能体来完成复杂的专业工作。以智慧医疗为例,医生和AI系统共同进行病情诊断,AI系统可以快速分析病人的医疗记录、影像资料等,提供初步的诊断建议;而医生则可以基于AI的分析结果和自己的专业知识和经验,做出最终的诊断决定。

图片


图:人机交互场景的的两种范式:Instructor-Executor  vs. Equal Partnership


决策制定和行为方式的角度看,AI智能体可以分为以下类型:


简单反射型Agent基于“如果-那么”规则直接响应当前的环境状态,不存储任何历史数据或状态。它们的设计简单,反应迅速,但适用范围有限。


图片


例如一个简单的客户线索收集机器人,在抖音有新增意向客户(例如咨询或留资)时,就触发企业微信的通知消息到群里。这类代理适合处理一些规则明确、不需要深度逻辑或历史上下文理解的任务。


图片


基于模型的反射型Agent:拥有环境的内部模型,能够基于对环境的理解和过去的经验做出更复杂的决策。它能够适应环境变化,处理更复杂的任务。


图片


例如智能家居系统中的温度控制器,它不仅能够根据当前的室温调节空调,还能学习用户的偏好,并预测何时需要提前调整温度。


图片


基于目标的Agent这类决策从根本上不同于前面描述的条件-动作规则,因为它涉及对未来的考虑,包括“如果我这样做会发生什么?”和“这会让我快乐吗?
因为了解环境的现状并不总是足以决定做什么。例如,在一个路口,出租车可以左转、右转或直行。正确的决定取决于出租车要去哪里。换句话说,除了当前状态的描述之外,智能体还需要某种描述理想情况的目标信息,例如设定特定的目的地。


图片


有时,基于目标的动作选择很直接,例如,单个动作能够立刻实现目标的情况。有时会更棘手,例如,智能体为了找到实现目标的方法而不得不考虑很长的复杂序列。路线规划就是很好的例子,它根据目的地、出发地以及路径策略设置,为用户量身设计出行方案,同时可结合实时交通,帮助用户绕开拥堵路段。只要将目的地指定为目标,就可以很容易地更改基于目标的智能体的行为,以到达不同的目的地。


图片


基于效用的Agent基于效用的代理旨在最大化效用功能或价值,精心挑选具有最高预期效用的行动,以衡量结果的有利程度。由于这种设计,基于效用的代理擅长于在复杂和不确定的场景中使用,灵活适应各种情况。


图片

在大多数环境中,仅靠目标并不足以产生高质量的行为。例如,许多动作序列都能使出租车到达目的地(从而实现目标),但有些动作序列比其他动作序列更快、更安全、更可靠或更便宜。同样是在“路线规划”中,可能会有“地铁优先”“步行最少”“换成少”“时间短”等不同的选项,这些就是用户期望的效用。

图片


学习型Agent:这些代理设计用于在未知环境中运行。他们从自己的经历中学习,并随着时间的推移调整自己的行动。深度学习和神经网络经常用于开发学习代理。


图片


在 DeepMind 的一项研究中,就展示了基于世界模型的通用可扩展的算法 DreamerV3在没有人类数据或主动教育的情况下从零开始在《我的世界》(Minecraft)中收集钻石。演示视频显示它收集的第一颗钻石,发生在 30M 环境步数 / 17 天游戏时间之内。


图片

还有一些其他的分类,尽管没有出现在《人工智能:现代方法》一书中,但也值得一提:


信念-欲望-意图Agent模拟人类的决策过程,具有对环境的信念(认知)、目标(欲望)和计划(意图),能够进行复杂的推理和规划,以达成其目标。我们在文章开头所提到的Google Duplex就是一个非常好的例子,可以被认为是接近于信念-欲望-意图(B-D-I)模型的AI代理。


  • 信念(Belief):Duplex具有对环境的认知,比如理解用户的需求、知道餐厅的开放时间和预约规则。它能够收集和处理信息,形成对当前环境的理解。
  • 欲望(Desire):它基于用户的指令,有明确的目标或欲望,如为用户预订特定日期和时间的餐厅。
  • 意图(Intention):Duplex制定计划和行动步骤来实现这一目标,比如通过电话与餐厅交流,询问可用时间,确认预约细节。
  • 复杂的推理和规划:在进行电话预约时,Duplex能够根据对方的回答进行即时的推理,做出合适的响应,并根据对话情况调整其行动计划,以实现用户的预约意图。


基于逻辑的Agent通常基于一系列逻辑规则,通过推理来解决问题,适合需要高度逻辑判断的场景,例如法律咨询聊天机器人,通过分析用户的问题和现有的法律规则库,逻辑推理出最合适的法律建议或解答。


图片


分层的AI Agent按层组织的代理,高级代理负责协调低级代理。这些级别根据系统的复杂性量身定制,在机器人、制造和运输等不同领域表现出色,擅长无缝协调多个任务和子任务。
xAgent的组成部分和工作机制就可以被理解为分层的AI代理。在分层AI代理体系中,不同层级的代理负责完成不同抽象层次的任务,从高层的任务规划到底层的具体执行,各层次之间相互协作,以实现复杂任务的有效处理。


图片


其中:
调度器:位于体系结构的最高层,负责动态实例化和分派任务给不同的智能体。它允许我们添加新的智能体和改进智能体的能力。这一层相当于高层决策层,对新的智能体进行整合和调度,确保系统能够灵活适应新任务和环境变化。
规划器:处于中间层,负责为任务生成和校正计划,它将任务分解为子任务,并为它们生成里程碑,使智能体能够逐步解决任务,桥接了高层的调度决策和底层的执行行动。
行动者:位于体系结构的最底层,负责采取行动实现目标和完成子任务。行动者利用各种工具来解决子任务,它也可以与人类合作来解决任务。它直接与环境交互,实现具体目标。




53AI,企业落地大模型首选服务商

产品:场景落地咨询+大模型应用平台+行业解决方案

承诺:免费场景POC验证,效果验证后签署服务协议。零风险落地应用大模型,已交付160+中大型企业

联系我们

售前咨询
186 6662 7370
预约演示
185 8882 0121

微信扫码

与创始人交个朋友

回到顶部

 
扫码咨询