近日,在由红杉资本举办的人工智能峰会上,OpenAI的创始成员安德烈·卡帕西(Andrej Karpathy)与知名学者吴恩达教授等分享了他们对AI Agent(智能代理)的深刻见解。这些人工智能领域的领军人物不谋而合,那就是生成式AI现在只是起点,接下来的焦点将是AI Agents的蓬勃发展。
“我认为AI Agent 是一个激动人心的趋势,每一个正在或者准备构建AI的人都应该密切关注它”——吴恩达教授
“AI领域正在向独立的AI Agent 迈进,它不会是仅仅是单一的代理,而是多个代理的协同工作” ——Andrej Karpathy (OpenAI)
开发者将会变成用户,未来任何用户都可以创建他们的独立AI Agent (智能代理)。我确信5年以内,这会成为学校教育的一部分。—— Arthur Mensch (Mistral AI CEO)
肉眼可见的,人工智能领域正在超越狭义的大语言模型(LLM),转向开发更为强大、自主性更高的代理,人们期待这些代理将在众多领域真正提升和增强人类智能。为什么整个AI领域都在向开发先进的AI Agent靠拢?它又将如何改变我们处理和利用人工智能的方式?那么希望这篇文章为你提供宝贵的洞见。
既然有了LLM和RAG,为什么我们还需要 AI Agent
尽管LLM和RAG模型在语言生成的可能性上已经取得了突破,但他们毕竟还是有很大的局限,很难真正地解决实际生产中的问题,而AI Agent的发展代表了向更智能、自主和多功能系统的一步,这些系统能够在更广泛的场景中与人类并肩工作。可以说,从LLM向代理的转变是为了创造能够真正理解、学习和解决现实世界问题的AI系统。目标导向行为:LLM和RAG模型主要侧重于根据其训练数据中的模式生成类似人类的文本。然而,它们缺乏以灵活、智能的方式设定和实现特定目标的能力。而AI Agent可以被设计为具有明确的目标,并计划并采取行动以实现这些目标。记忆和状态跟踪:大多数当前的语言模型没有持久的记忆或状态跟踪能力。每个输入都是独立处理的。AI Agent可以保持内部状态,随时间积累知识,并使用该状态来指导未来的决策和行动。与环境的互动:LLM仅在文本领域中运作,没有与物理世界的直接互动。AI Agent可以感知并对其环境采取行动,无论是数字世界、机器人系统,还是通过传感器和执行器与物理世界互动。转移和泛化:尽管LLM擅长处理与训练数据类似的语言任务,但它们通常难以将知识转移到全新的领域或任务。AI Agent凭借其学习能力、推理能力和计划能力,有潜力更好地转移和泛化到新情境中。持续学习:大多数语言模型一旦训练完成就不变了, 而AI Agent可以随着时间的推移,不断学习和适应它们的知识与技能,因为它们可以与新环境和情境互动。多任务能力:LLM通常专门用于特定的语言任务,而AI Agent可以被设计为通用的多任务系统,能够流畅地结合各种技能,如语言、推理、感知和控制,以解决复杂、多方面的问题。LLM:可以解释不同的旅游景点或提供一般旅行建议。RAG:可以基于你的私人数据找到关于目的地的相关博客和文章。AI Agent:除了可以做到所有这些以外,还可以外加:
LLM:擅长一般的语言理解和生成,它们就像庞大的信息图书馆。RAG:通过检索特定相关信息来补充LLM的不足,本质仍然是知识和文本生成。AI Agent:为特定目标构建的,它们在理解语言和在现实世界或者数字系统中采取行动之间架起了桥梁。AI Agent:可以串联多个步骤:检索信息(如RAG)——处理信息以做出决策——采取行动(如:发送电子邮件/预订/预约/控制智能家居设备)AI Agent:可以主动。它们可以:监控数据流并发出告警/根据你的偏好启动行动/随着时间的推移了解你并调整它们的行为AI Agent:与各种系统和API接口之间协作,比如访问你的电子邮件或日历, 与数据库互动,控制其他软件或设备等等。AI Agent的架构包括使其能够在其环境中思考、计划和行动的必要组件。这种复杂的设计通常包括:推理引擎:Agent的核心,利用强大的大型语言模型(LLM)来理解自然语言、获取知识,并推理解决复杂问题。知识库:作为Agent的记忆库,存储与其任务相关的事实信息、过去的经历和偏好。工具集成:允许Agent通过API与各种软件应用程序和服务互动,扩展其操纵和控制环境的能力。传感器输入:提供Agent感知其周围环境的能力,从文本、图像或各种传感器收集数据。用户界面:一个使与人类用户与代理无缝沟通和协作的桥梁。这些元素共同创造了一个能够自主解决问题的智能系统。简而言之,AI Agent能够感知环境,对问题进行深入分析,制订出详尽的步骤计划,并付诸实施。随着技术的不断进步和完善,期待AI Agent能够在实际的生产环境中得到广泛应用,并充分展现其巨大的潜力与价值。