我要投稿

AI Agent，厉害了。

发布日期：2024-04-15 14:47:47 浏览次数： 2121 来源：逛逛GitHub

周末抽空看了一下吴恩达在美国红杉 AI 活动上分享的关于 AI Agent 的演讲，虽然简短但浓缩了行业大咖的思考，值得分享给读者，阅读本文大概需要 5 min。

本文是针对吴恩达这篇演讲中演讲内容的总结、摘抄、提取，建议大家去看看原视频，相信会有启发，可以在 B站去搜索“吴恩达 Agent” ，整个视频大概 15 min。

不用担心听到 Agent、智能体、代理这些词就觉得高深莫测，读文本文相信会有收获。本文的目录如下：

1. 主流使用大模型的方式

2. 基于 Agent 的工作流程

3. 使用 Agent 的效果如何

4. 关于 Agent 的四个设计模式

01

主流使用大模型的方式

相信大多数人在使用 ChatGPT 这种大模型时，方式是这样的：你输入一段提示词，大模型会立即生成答案。

这就像你要求一个人写一篇关于「美食」主题的文章，要求他坐在键盘前，从头写到尾，而且不能删除。毕竟大模型的输出就是一个字一个字的往外蹦，不会发现自己写的内容有错误删除重写。

这种主流的使用大模型的方式是非 Agent 的流程。

02

基于 Agent 的工作流程

相比之下，Agent 工作流程是这样的: 同样是让它写一篇关于「美食」主题的文章。

首先第一步，先让大模型写一个文章大纲，如果需要借助互联网上的内容进行调研分析就先做研究分析，然后输出一般草稿, 然后阅读写的草稿并思考如何优化修订，再修改一版，如此循环往复、迭代多次。

这种有迭代反思的做法会带来显著的改进效果。

03

使用 Agent 后效果如何？

吴恩达的团队做了一系列实验，简单来说就是让 AI 去写一些代码并运行，最终对比不同模型和工作流程得出结果的性能，进行一个对比。结果如下：

GPT-3.5 模型：准确率 48%
GPT-4 模型：准确率 67%
GPT-3.5 + Agent：高于 GPT-4 模型的表现
GPT-4 + Agent：表现的远高于 GPT-4 模型，非常出色

解释一下上图：Reflection、Tool Use、Planning、Multiagent 是吴恩达提到的四种 Agent 设计模式，后面会详细提到，看完本文全部再回过头看这张图，就明白了。

其实基于 Agent 的工作流程才符合人类的习惯，毕竟对于一段复杂的程序，没有一个程序员是从头写到尾的，一般都是先能跑通，然后不断优化重构，补充异常处理。

04

关于 Agent 的四个设计模式

行业内有很多关于 Agent 的讨论，目前这个领域比较混乱，吴恩达对 AI Agent 的一些方向进行了分类。

反思（reflection）

很好理解，如果你让大模型写一段代码，它会立马给你一个反馈。这时候你可以将它输出的代码片段再输入回去，让大模型仔细检查它写的代码的准确性、结构规范性等，并且给出评论。

然后再将这些反馈结果输入给大模型，它可能会输出一个比第一版更好的代码。

刚刚这里例子是让大模型与自己进行交互，是一种单一的 Agent，如果有两个 Agent：一个负责 Coding，另一个负责 Code Review。

两个 Agent 进行交互，一个是专业的程序员，另外一个是专业的代码评审员，你来我往，几轮过去输出的代码质量可能就非常高了（有点博弈论的感觉）。

工具使用（Tool use）

如果大家使用微软 Edge 浏览器的 Copliot，或者月之暗面的 Kimi Chat，让你询问一个事情，他会首先检索互联网上的内容，基于检索到的内容进行总结分析，给出结论。

这个其实就是大模型使用「网页搜索」工具的例子。这张 PPT 上还举了很多例子，比如邮箱、日历、云存储、图片生成等等。

比如你问大模型，明天的天气如何？这个时候大模型一般会使用日历工具知道今天是什么日子，然后使用天气工具得到明天的天气状况。

规划（Planning）

还是直接看 PPT 中的例子，你给出一个骑着滑板男孩的图片，然后对大模型说：“请生成一张图片，其中一个女孩正在阅读一本书，她的姿势与图片 example.jpg 中的男孩相同，然后用声音描述新的图像。”

你只是给了一张图片和一段命名，AI Agent 能够自己计划使用什么工具，如何一步步的达到目的。

Agent 可能会这样做：首先确定男孩的姿势，可能在 Hugging Face 开源社区上找到一个合适的姿势提取模型来提取这个姿势，接下来要找到一个姿势图像模型来合成一个女孩的图像，然后使用图像转文本的模型，最后使用语音合成，最终这个任务完成了。

当然这只是理想中的工作流程，对于很复杂的工作流其实很难可靠的运行，但是这是一种理念，针对比较成熟的、简短的场景它可能是 Work 的。

多智能体协作（Multiagent collaboration）

多智能体协作，这个就有点恐怖了，类似于之前大火的 AI 小镇。

吴恩达举的例子是开源项目 ChatDev，你可以让一个大语言模型扮演不同的角色，比如公司CEO、设计师、产品经理或测试人员，这些 Agent 会相互协作，共同开发一个 App 或者复杂程序。

虽然不是每次都能成功，但有时确实非常惊艳。

05

最后

到这里，吴恩达的演讲就差不多结束了，上面 PPT 截屏的下面都会附上一些扩展资料，感兴趣的可以延伸阅读。最后他还提到了两个点：

1. 目前人类还是习惯“及时反馈”，希望输入一段命令能够尽快的给出反馈。虽然通过 Agent 能显著的提升效果，但是在 Agent 工作流程中，往往需要等待几分钟甚至几个小时，才能得到响应，人能不能接受这一点或者说习惯培养的难度到底有多大，还不得而知。

2. 快速生成 token 也很重要，即使使用质量略低但速度更快的语言模型，通过更多轮次的迭代，也可能比使用更高质量但速度较慢的模型获得更好的结果。

通往 AGI 的道路就像一条漫长的旅程，而 Agent 工作流程有望成为通往目的地的一小步。

53AI，企业落地大模型首选服务商

产品：场景落地咨询+大模型应用平台+行业解决方案

承诺：免费场景POC验证，效果验证后签署服务协议。零风险落地应用大模型，已交付160+中大型企业

相关资讯

2024-07-10

科研助力神器：Scholar GPT，百倍提升你的研究效率！

2024-07-09

Doc2X：一款功能超级强大的文档解析与转换工具

2024-07-06

我对多智能体协作过程自动演化架构设计

2024-07-06

可穿戴AI，底层逻辑的变化

2024-07-06

一文彻底搞懂Transformer - Word Embedding（词嵌入）

2024-07-06

AI动态 | 腾讯元宝AI搜索能力升级：深度搜索模式上线

2024-07-06

智能手表 + AI ，都已经这么智能了？？

2024-07-06

死磕10万卡GPU算力集群，腾讯星脉网络2.0有什么秘密武器？

了解更多

160+中大型企业正在使用53AI

立即咨询预约演示

把握AI发展的机遇，共同探索、共同进步

2025-01-22

如何打造基于GenAI的员工服务机器人

2025-01-22

热点资讯

爆肝50小时，DeepSeek使用技巧，你收藏这一篇就够了！

2025-02-01

我把最近爆火的 DeepSeek-V3 接到了 Cursor！

2025-01-01

本地部署大模型？看这篇就够了，Ollama 部署和实战

2024-08-13

一文读懂DeepSeek-R1本地部署配置要求（建议收藏）

2025-02-04

更改ollama模型存储路径

2024-04-25

Ollama 本地运行大模型(LLM)完全指南

2024-07-25

16个具有“联网搜索”功能的AI：总有一个适合你！

2024-06-13

OpenAI o1与GPT4o的对比分析

2024-09-23

全民AI时代：手把手教你用Ollama & AnythingLLM搭建AI知识库，无需编程，跟着做就行！

2024-04-26

Cursor 一个真正让程序员产生危机感的 AI 编程工具

2024-08-21

大家都在问

大力出奇迹，苹果发售 10 万块的 Mac Studio M3 Ultra 能干什么？

2025-03-09

大模型的未来，是 Agent 还是 App？

2025-03-08

通用Agent未来形态什么样？

2025-03-08

5 个人、3 小时，开源复刻 Manus？

2025-03-08

Manus引爆AI Agent热潮：企业如何在这场科技革命中不掉队？

2025-03-07

Manus，为何是他们做出来了？

2025-03-07

一夜刷爆全网的Manus，说是比DeepSeek还牛B？

2025-03-07

DeepSeek-R1后，大模型为何集体‘死磕’思维链？

2025-03-05

热门标签

内容创作大模型技术个人提效 langchain llamaindex 多模态技术 RAG技术智能客服知识图谱模型微调 RAGFlow coze Dify Fastgpt Bisheng Qanything AI+汽车 AI+金融 AI+工业 AI+培训 AI+SaaS 提示词框架提示词技巧 AI+电商 AI面试数字员工 ChatBI 知识管理开源大模型智能营销智能硬件智能化改造 AI+医疗 MaxKB