微信扫码
与创始人交个朋友
我要投稿
吴恩达在近期演讲中大谈 AI Agent,他认为,在精心设计的 Agent 工作流程(workflow)中使用多个 Agent,可以在现有模型中产生“次时代”级别的性能。所以,基于 GPT-3.5 构建的 Agent 工作流程在应用中的表现能比 GPT-4 要好。
AI 大佬们都认为 AI Agent 是发展趋势,对未来的工作方式会产生重大影响。
那么它到底是什么?能给我带来什么改变呢?
通过对比 LLM、RAG 的用途,可以更好的理解 AI Agent。
LLM 是大语言模型,作用是语言逻辑推理。
RAG 相当于 LLM + 图书馆,解决了 LLM 知道的内容有限的问题。
LLM 的知识是提前训练好的内容,如果想让 LLM 知道更多的内容,可以把外在的内容交给 LLM,让它理解之后表达出来。
比如 LLM 是用一年前的数据训练的,它就只能知道一年前的内容。现在小米汽车问世了,想让它讲述相关内容,就需要把小米汽车的资料交给它,它就可以讲述了。
但要注意,这些外在的内容始终是外在的,交给 LLM 一次之后,并不会进入 LLM 之中,始终是外部内容。
LLM 和 RAG 主要区别是内容范围的不同,但 AI Agent 是一个工作流,不是一个层面的概念。
AI Agent 会利用 LLM 的推理能力,把问题进行拆解,形成一个一个的小问题,并定义好这些小问题之间的前后关系,先处理哪个,再处理哪个。
然后按照顺序,调用 LLM 或者 RAG 或者外部工具,来解决每一个小问题。
最终解决最初的问题。
梳理一下 AI Agent 的主要特点:
LLM 和 RAG 主要是文本的逻辑推理,生成文本。
缺乏以灵活、智能的方式设定和追求特定目标的能力。
AI Agent 则可以设计具有明确的目标,计划、采取行动以实现这些目标。
LLM 和 RAG 没有记忆,没有状态跟踪能力,每次输入都是独立的处理。
AI Agent 可以维护一个内部状态,可以积累知识,可以基于状态信息来做决策和行动。
LLM 实在文本领域独立操作,无法与物理世界进行交互。
AI Agent 则可以对接传感器等设备感知外部环境。
LLM 的数据是训练好的,是静态的。
AI Agent 则可以在与新环境和情况交互时不断学习和调整他们的知识和技能。
LLM 用于特定的语言任务。
AI Agent 可以被设计为通用的多任务系统,能够流畅地结合语言、推理、感知和控制等各种技能来解决复杂的多方面问题。
假设您需要预订一次复杂的旅行。
LLM 可以解释不同的游览地点或提供一般旅行提示。
RAG 可以找到有关目的地的更丰富内容。
AI Agent 在此基础上,还可以做:
简单来讲,AI Agent 超出了信息层面,可以规划、拆解任务,并真正的执行任务。
LLM 擅长广泛的语言理解和生成。它们就像巨大的信息库。
RAG 通过查找相关信息来提高大型语言模型的性能。尽管如此,重点仍然是知识和文本生成。
AI Agent 是以特定目标为基础构建的。弥合了语言理解与采取行动之间的鸿沟。
LLM & RAG 主要处理单一输入并据此提供响应。
AI Agent 可以链式整合多个步骤:
LLM & RAG 单纯的根据提示词进行响应。
AI Agent 可以很主动:
LLM & RAG 在自己的环境中操作。
AI Agent 可以与不同的系统、API 接口对接。
例如访问邮箱、日历;操作数据库;操作智能硬件设备。
AI Agent 的架构设计通常包括:
核心部件,利用强大的大型语言模型(LLM)来理解自然语言、获取知识并推理解决复杂问题。
充当 Agent 的记忆库,存储与其任务相关的事实信息、过去的经验和偏好。
允许 Agent 通过 API 与各种软件应用程序和服务交互,扩展其操纵和控制其环境的能力。
为 Agent 提供感知周围环境、从文本、图像或各种传感器收集数据的能力。
与人类用户无缝沟通和协作的桥梁。
这些元素共同构成了一个能够自主解决问题的智能系统。
AI Agent 可以分析一个问题,制定出一步一步的计划,并自信地执行它,使其成为人工智能世界中的变革力量。
53AI,企业落地应用大模型首选服务商
产品:大模型应用平台+智能体定制开发+落地咨询服务
承诺:先做场景POC验证,看到效果再签署服务协议。零风险落地应用大模型,已交付160+中大型企业
2024-03-30
2024-04-26
2024-05-10
2024-04-12
2024-05-28
2024-04-25
2024-05-14
2024-07-18
2024-08-13
2024-04-26