我要投稿

为什么大佬们集体为AI Agent打Call？

发布日期：2024-04-10 14:25:53 浏览次数： 2288 作者：曼谈AI

近日，在由红杉资本举办的人工智能峰会上，OpenAI的创始成员安德烈·卡帕西（Andrej Karpathy）与知名学者吴恩达教授等分享了他们对AI Agent（智能代理）的深刻见解。这些人工智能领域的领军人物不谋而合，那就是生成式AI现在只是起点，接下来的焦点将是AI Agents的蓬勃发展。

“我认为AI Agent 是一个激动人心的趋势，每一个正在或者准备构建AI的人都应该密切关注它”——吴恩达教授

“AI领域正在向独立的AI Agent 迈进，它不会是仅仅是单一的代理，而是多个代理的协同工作” ——Andrej Karpathy (OpenAI)

开发者将会变成用户，未来任何用户都可以创建他们的独立AI Agent (智能代理)。我确信5年以内，这会成为学校教育的一部分。—— Arthur Mensch (Mistral AI CEO)‍

肉眼可见的，人工智能领域正在超越狭义的大语言模型（LLM），转向开发更为强大、自主性更高的代理，人们期待这些代理将在众多领域真正提升和增强人类智能。

E2B的AI Agents 全景图：

为什么整个AI领域都在向开发先进的AI Agent靠拢？它又将如何改变我们处理和利用人工智能的方式？

如果你希望：

理解未来的工作模式：AI代理将如何重塑行业和你的职业生涯？
成为早期采用者：学习如何创建AI代理并发挥它们的力量
获得竞争优势：在快速演变的技术领域中保持领先

那么希望这篇文章为你提供宝贵的洞见。

PART

既然有了LLM和RAG，为什么我们还需要 AI Agent

尽管LLM和RAG模型在语言生成的可能性上已经取得了突破，但他们毕竟还是有很大的局限，很难真正地解决实际生产中的问题，而AI Agent的发展代表了向更智能、自主和多功能系统的一步，这些系统能够在更广泛的场景中与人类并肩工作。可以说，从LLM向代理的转变是为了创造能够真正理解、学习和解决现实世界问题的AI系统。

我们需要AI Agent有几个关键原因:

目标导向行为：LLM和RAG模型主要侧重于根据其训练数据中的模式生成类似人类的文本。然而，它们缺乏以灵活、智能的方式设定和实现特定目标的能力。而AI Agent可以被设计为具有明确的目标，并计划并采取行动以实现这些目标。

记忆和状态跟踪：大多数当前的语言模型没有持久的记忆或状态跟踪能力。每个输入都是独立处理的。AI Agent可以保持内部状态，随时间积累知识，并使用该状态来指导未来的决策和行动。

与环境的互动：LLM仅在文本领域中运作，没有与物理世界的直接互动。AI Agent可以感知并对其环境采取行动，无论是数字世界、机器人系统，还是通过传感器和执行器与物理世界互动。

转移和泛化：尽管LLM擅长处理与训练数据类似的语言任务，但它们通常难以将知识转移到全新的领域或任务。AI Agent凭借其学习能力、推理能力和计划能力，有潜力更好地转移和泛化到新情境中。

持续学习：大多数语言模型一旦训练完成就不变了，而AI Agent可以随着时间的推移，不断学习和适应它们的知识与技能，因为它们可以与新环境和情境互动。

多任务能力：LLM通常专门用于特定的语言任务，而AI Agent可以被设计为通用的多任务系统，能够流畅地结合各种技能，如语言、推理、感知和控制，以解决复杂、多方面的问题。

PART

AI Agent 将如何改变世界？‍

举个例子，比如你需要预订一次比较复杂的旅行：

LLM：可以解释不同的旅游景点或提供一般旅行建议。

RAG：可以基于你的私人数据找到关于目的地的相关博客和文章。

AI Agent：除了可以做到所有这些以外，还可以外加：

根据你的预算搜索航班和酒店
完成预订
将所有内容添加到你的日历
发送带有相关信息的出发前提醒
是不是听起来很cool呢？

PART

LLM、RAG和AI Agent的区别

1. 一般知识 vs 任务导向

LLM：擅长一般的语言理解和生成，它们就像庞大的信息图书馆。

RAG：通过检索特定相关信息来补充LLM的不足，本质仍然是知识和文本生成。

AI Agent：为特定目标构建的，它们在理解语言和在现实世界或者数字系统中采取行动之间架起了桥梁。

2. 多步骤推理

LLM和RAG：主要处理单个输入并提供响应。

AI Agent：可以串联多个步骤：检索信息（如RAG）——处理信息以做出决策——采取行动（如：发送电子邮件/预订/预约/控制智能家居设备)

3. 主动性

LLM和RAG：通常只是被动地对提示做出回应

AI Agent：可以主动。它们可以：监控数据流并发出告警/根据你的偏好启动行动/随着时间的推移了解你并调整它们的行为

4. 与现有系统的集成

LLM和RAG：倾向于在自己的环境中运行

AI Agent：与各种系统和API接口之间协作，比如访问你的电子邮件或日历, 与数据库互动，控制其他软件或设备等等。

PART

AI Agent的架构包括什么？

AI Agent的架构包括使其能够在其环境中思考、计划和行动的必要组件。这种复杂的设计通常包括：

推理引擎：Agent的核心，利用强大的大型语言模型（LLM）来理解自然语言、获取知识，并推理解决复杂问题。

知识库：作为Agent的记忆库，存储与其任务相关的事实信息、过去的经历和偏好。

工具集成：允许Agent通过API与各种软件应用程序和服务互动，扩展其操纵和控制环境的能力。

传感器输入：提供Agent感知其周围环境的能力，从文本、图像或各种传感器收集数据。

用户界面：一个使与人类用户与代理无缝沟通和协作的桥梁。

这些元素共同创造了一个能够自主解决问题的智能系统。简而言之，AI Agent能够感知环境，对问题进行深入分析，制订出详尽的步骤计划，并付诸实施。随着技术的不断进步和完善，期待AI Agent能够在实际的生产环境中得到广泛应用，并充分展现其巨大的潜力与价值。

53AI，企业落地大模型首选服务商

产品：场景落地咨询+大模型应用平台+行业解决方案

承诺：免费场景POC验证，效果验证后签署服务协议。零风险落地应用大模型，已交付160+中大型企业

相关资讯

2024-07-10

科研助力神器：Scholar GPT，百倍提升你的研究效率！

2024-07-09

Doc2X：一款功能超级强大的文档解析与转换工具

2024-07-06

我对多智能体协作过程自动演化架构设计

2024-07-06

可穿戴AI，底层逻辑的变化

2024-07-06

一文彻底搞懂Transformer - Word Embedding（词嵌入）

2024-07-06

AI动态 | 腾讯元宝AI搜索能力升级：深度搜索模式上线

2024-07-06

智能手表 + AI ，都已经这么智能了？？

2024-07-06

死磕10万卡GPU算力集群，腾讯星脉网络2.0有什么秘密武器？

了解更多

160+中大型企业正在使用53AI

立即咨询预约演示

把握AI发展的机遇，共同探索、共同进步

2025-01-22

如何打造基于GenAI的员工服务机器人

2025-01-22

热点资讯

爆肝50小时，DeepSeek使用技巧，你收藏这一篇就够了！

2025-02-01

Ollama 本地运行大模型(LLM)完全指南

2024-07-25

我把最近爆火的 DeepSeek-V3 接到了 Cursor！

2025-01-01

一文读懂DeepSeek-R1本地部署配置要求（建议收藏）

2025-02-04

本地部署大模型？看这篇就够了，Ollama 部署和实战

2024-08-13

更改ollama模型存储路径

2024-04-25

16个具有“联网搜索”功能的AI：总有一个适合你！

2024-06-13

Cursor 一个真正让程序员产生危机感的 AI 编程工具

2024-08-21

OpenAI o1与GPT4o的对比分析

2024-09-23

全民AI时代：手把手教你用Ollama & AnythingLLM搭建AI知识库，无需编程，跟着做就行！

2024-04-26

大家都在问

除了MCP我们还有什么？

2025-04-24

LLM 推理引擎之争：Ollama or vLLM ?

2025-04-24

专题策划（下）| 如何实现大模型与行业的深度耦合？

2025-04-23

OpenAI：就你们也配做智能体？

2025-04-23

为什么全参数微调能让大模型从“通才”变“专才”？

2025-04-23

RAG应用必备！10种向量数据库全解析、Weaviate、Milvus、pgvector、Qdrant等热门工具谁更强？

2025-04-22

18种RAG技术大比拼：谁才是检索增强生成的最佳选择？

2025-04-22

白话解析 DPO：如何让 AI 直接学习人类偏好？

2025-04-22

热门标签

内容创作大模型技术个人提效 langchain llamaindex 多模态技术 RAG技术智能客服知识图谱模型微调 RAGFlow coze Dify Fastgpt Bisheng Qanything AI+汽车 AI+金融 AI+工业 AI+培训 AI+SaaS 提示词框架提示词技巧 AI+电商 AI面试数字员工 ChatBI 知识管理开源大模型智能营销智能硬件智能化改造 AI+医疗 MaxKB