微信扫码
与创始人交个朋友
我要投稿
人类一直希望人工智能能成为人类的重要助手,协助人类解决各种复杂问题,完成各种各样繁琐的任务。AGI(Artificial General Intelligence,通用人工智能)将会帮助人们实现该愿景。AGI是指一种能够像人类一样思考、学习和执行多种任务的人工智能系统。多年来,人们在人工智能领域的不断研究探索,尤其是随着大语言模型的爆火,使得人们越发清晰的认识到Agents和人工智能的发展是密不可分的。Agents被视为是通往AGI的主要探索路线。
11月6日,OpenAI在召开了首次开发者大会。在大会上,OpenAI认可了AI Agent的发展方向,并提供了一系列产品功能用于支持AI Agent的发展,包括:
GPTs平台:Agents分发平台。开发者可以上传自己的Agent(OpenAI叫客制化GPT),并获得利润分成。
随着ChatGPT等大语言模型(LLM)获得了巨大成功,在其爆火的推动下,AI Agent(智能体)相继成为各大科技巨头布局的新风口。比如微软推出了AutoGen、谷歌Deepmind推出了Robotic Agent、亚马逊推出了Bedrock Agents、阿里云ModelScopeGPT、斯坦福与谷歌联合搭建的名为《Smallville》的虚拟小镇等等,同时,OpenAI也已然奔赴至Agent。Agent被认为是大语言模型(LLM)的下半场,或许它将是决定大语言模型革命的关键因素。
Agent是一个历史悠久的概念,最早起源于哲学,其根源可以追溯到Aristotle(亚里士多德)和Hume(休谟)等思想家[1][2]。其描述了一种拥有欲望、信念、意图以及采取行动能力的实体。后来,随着计算机技术的兴起与快速发展,再加上人们一直以来对人工智能的期望,研究人员将Agent概念引入至人工智能领域中。在人工智能领域,AI Agent(智能体)这一术语被赋予了一层新的含义:具有自主性、反应性、主动性和社交能力特征的智能实体。
自主性:智能体能够在没有人类或其他实体的直接干预下运行,并对其行为和内部状态具有一定的控制能力。也即智能体不仅应该具备按照明确的人类的指令完成任务的能力,还应该具备独立启动和执行行动的能力。
反应性:智能体能够对环境中的即时变化和刺激做出快速响应的能力。也即智能体能够感知其周围环境的变化,并迅速采取适当的行动。
主动性:智能体不仅仅是对环境做出反应,而且也需要具备主动采取行动来展示出以目标为导向的能力。该属性强调智能体能够进行推理、制定计划并采取主动措施来实现特定目标或适应环境变化。
社交能力:智能体与其他智能体(包括人类)通过某种通信语言进行交互的能力。
图1 Agents演进示意图
Agent的演变经历了几个阶段,从20世纪80年代开始,Agent在不断演进中,从无“脑”演变为有“脑”,从初始的采用逻辑规则和符号来封装知识和促进推理过程,演变为采用LLM作为大脑,并通过更多的组件赋予其更多的能力,如通过多模态感知和工具等策略扩展其感知环境,通过思维链实现类似推理规划能力等。
3 Agent是什么
3.1 Agent概念
Agent可以学习如何调用外部 API,以获取模型权重中缺少的额外信息,这些信息通常在预训练后很难更改,包括当前信息、代码执行能力、专有信息源的访问等。
图2 基于LLM的Agent系统概览
行动模块:行动模块负责将Agent的决策转化为具体的结果。其会受到其它模块的影响,并与环境直接交互,决定着Agent完成任务的结果。
图3 基于LLM的Agent架构设计的统一框架
9月份,复旦大学NLP团队推出了《The Rise and Potential of Large Language Model Based Agents: A Survey》综述论文。在该论文中,Agents被定义为由三个部分组成:控制器(Brain)、感知(Perception)和行动端(Action),如图4所示。
行动:赋予行动能力和使用工具的能力,使其能够更好地适应环境变化,通过反馈与环境交互,甚至影响和塑造环境。
图4:基于LLM的Agents的概念框架
一个LLM Agent的能力大体上达成共识,包含大脑、感知、规划、记忆和行动,行动中包含工具使用。当然,LLM Agent的能力也尚在不断演进。通常,LLM Agent基础架构包含LLM、规划、感知、记忆与行动五个组件部分,其中LLM 扮演了Agent 的“大脑”,在这个系统中提供推理、规划等能力。
图5 LLM Agent决策示意图
LLM+规划,Agents的大脑
图6 Agents的反思框架
Agent通过感知模块感知外部环境,确定环境的相关状态和变化,并将空间扩展至多模态。然后将感知的信息作为后续规划决策的信息来源。Agent支持通过各种设备获取不同的环境信息,其感知空间包含文本、视觉、听觉等多模态领域。
记忆,扩展大模型的对上下文、历史信息、领域知识的处理能力
记忆模块在Agent架构设计中起着非常重要的作用。对Agent系统而言,记忆可以定义为用于获取、存储、保留以及随后检索信息的过程。它可以利用记录下来的记忆来促进未来的行动。记忆模块可以帮助Agent积累经验、自我进化,并以更一致、合理和有效的方式行动。
图7 Agents中的长短期记忆,Lilian Weng.
行动模块将Agent的决策转化为具体的行动,其赋予了Agent行动能力和使用工具的能力,使其能够更好地适应环境变化,通过反馈与环境交互,甚至影响和塑造环境。
人类最显著的特征之一是能够使用工具。人类通过创造、修改和利用外部对象来完成超出身体和认知极限的任务。同样,给 LLM 配备外部工具也可以显著扩展大模型的功能,使其能够处理更加复杂的任务。Agent与大模型的最大区别在于能够使用外部工具协助其完成原本无法完成的工作。Agent具备了自主调用工具的能力,其会在获取到每一步子任务的工作后,都会判断是否需要通过调用外部工具来完成该子任务,并在完成后获取该外部工具返回的信息提供给LLM,进行下一步子任务的工作。
图8 Pi在情感方面的建议,来源于36氪
在游戏中,网易《逆水寒》手游,内置百位AI NPC,其将智能NPC升级至AI NPC,为玩家带来了AI游戏的体验,在游戏中可以体验到AI画师、AI作诗、AI对话剧情,处处皆有AI,让游戏不再呆板。利用Agent的人格属性,使NPC可以进行更智能化、个性化的对话。同时,利用Agent的记忆属性,使NPC可以记住之前对话,并根据对话内容改变之后与玩家的交流方式。AI Agent NPC的引入,极大提升了游戏的娱乐性,并引发了游戏社区的讨论热潮。
2023年4月,斯坦福大学的研究者们发表了名为《Generative Agents: Interactive Simulacra of Human Behavior》的论文,展示了一个由生成代理(Generative Agents)组成的虚拟西部小镇。该小镇由斯坦福与谷歌联合搭建并命名为《Smallville》,在小镇中,首次创造了多个智能体生活的虚拟环境,其内生活着25个可以模拟人类行为的生成式AI Agent。他们会有工作、会八卦、能组织社交等等。Agent具有类似人的特质、独立决策和长期记忆等功能。在小镇设计中,Agent包含了记忆、反思和规划三大要素。
图9 生成式Agents架构
在上述架构中,Agents感知其环境,并将所有感知保存在称为记忆流的Agents经验的综合记录中。基于他们的感知,该架构检索相关的记忆,并使用这些检索到的行动来确定另一个行动。这些检索到的记忆也被用来形成长期的计划和创建更高级别的反思,这些都被输入到记忆流中以供未来使用。
53AI,企业落地应用大模型首选服务商
产品:大模型应用平台+智能体定制开发+落地咨询服务
承诺:先做场景POC验证,看到效果再签署服务协议。零风险落地应用大模型,已交付160+中大型企业
2024-08-13
2024-05-28
2024-04-26
2024-08-21
2024-06-13
2024-08-04
2024-07-09
2024-09-23
2024-07-18
2024-04-11