微信扫码
添加专属顾问
我要投稿
深入了解AI Agent的核心原理与应用前景,开启智能时代的新纪元。核心内容: 1. AI Agent的定义及其在科技新闻中的热度 2. AI Agent与传统ChatGPT的区别及其主动性特点 3. AI Agent的关键能力和未来发展方向
✅ 我是丁师兄,专注于智能驾驶大模型,持续分享LLM面试干货。
✅ 大模型1v1辅导,已帮助多名同学成功上岸
offer捷报
新年继续收到学员好消息!恭喜学员拿下科大讯飞,杭州某自动驾驶公司及东京某公司大模型岗offer!
随着DeepSeek爆火,面试中也越来越高频出现,因此训练营也更新了DeepSeek系列技术的深入拆解。包括MLA、MTP、专家负载均衡、FP8混合精度训练,Dual-Pipe等关键技术,力求做到全网最硬核的解析~
这篇文章是对台大李宏毅老师 2025 年 3 月 9 日的一堂课的转述和解读,主题是 AI Agent。
我们会从基础定义讲起,一步步剖析 AI Agent 的工作原理、关键能力,再看看它能干啥、还差在哪儿。
视频:一堂课搞懂 AI Agent 的原理
https://www.youtube.com/watch?v=M2Yg1kwPpts
AI Agent 是什么?为什么它突然火了?
如果你最近刷过科技新闻,可能会发现「AI Agent」这个词频频出现。
其实它已经不是第一次走进大众视野了,2023 年的时候 AutoGPT/MetaGPT 的出现就火过一阵,而随着大语言模型(LLM)技术、市场的不断演进,到了 2025 年,大家的目光再一次聚焦到了 AI Agent 这个方向上。
想象一下,你有个超级聪明的助理。你不用告诉它每一步怎么做,只需要说:「帮我订一张去上海的机票,预算 2000 元。」它就会自己上网查航班、比价、填表单,最后把票订好。
这样的「助理」就是 AI Agent 的核心想法——它不是等着你发号施令,而是自己想办法达成目标。
这和我们平时用的 ChatGPT 有点不一样,对吧?ChatGPT 是你问一句,它答一句,而 AI Agent 更像一个「主动做事的小能手」。
AI Agent 的本质:从「听话」到「主动」
先搞清楚一个问题:AI Agent 到底跟我们常用的 AI 有什么不一样?
假设你问 ChatGPT:「AI Agent 的中文是什么?」它会老老实实回答:「AI Agent 的中文是『人工智能代理』。」这就是典型的 AI——你给指令,它执行,完事。
但 AI Agent 不一样。你如果对它说:「帮我研究一下 AI Agent 的定义」,它不会只丢给你一个翻译,而是可能会自己去搜资料、分析不同观点,最后整理出一份报告。
简单来说:
那 AI Agent 具体是怎么工作的呢?
课程里给了个清晰的框架,可以用一张图来概括:
举个例子,AlphaGo 就是个经典的 AI Agent。它的目标是「赢棋」,观察是「当前棋盘状态」,行动是「落子」,然后对手回应,它再观察、再行动。
这个循环听起来是不是很像我们人类解决问题的方式?先看情况,想办法,试一下,再调整。
这个工作循环体现了 AI Agent 的自主性和反应式架构——像人类一样通过试错逼近目标,而非单纯执行预设指令。
如果你学过机器学习,可能会觉得这个循环很眼熟。它跟强化学习(Reinforcement Learning,RL)的思路很像。
RL 的核心是让 AI 通过试错学会最大化「奖励」(Reward)。比如 AlphaGo,赢棋 Reward 是 +1,输棋是 -1,它通过无数次模拟对局,学会怎么下才能赢。
但传统的 AI Agent 多靠 RL 打造,比如 AlphaGo 得专门为围棋训练一个模型。可问题来了:换个任务,比如下象棋,它还得重头练。这就有点笨拙了。
而现在,AI Agent 之所以又火起来,是因为我们有了新玩法——直接用大型语言模型(LLM)当 Agent,不用每次都重新训练。这是个大转折,后面会细讲。
AI Agent 的新灵魂:大型语言模型(LLM)
过去,RL 打造的 AI Agent 虽然强,但局限明显:一个模型只能干一件事。现在有了 LLM(像 ChatGPT、Grok 这样的语言模型),情况变了。
LLM 的超能力在于通用性——它能理解文字、回答问题、写代码,甚至看图说话。那能不能直接让它当 AI Agent 呢?
答案是可以的!LLM 驱动的 AI Agent 是这样工作的:
这跟 RL 的区别是:LLM 不用专门训练,它靠已有的语言理解能力,直接「猜」下一步该干啥。是不是很省事?
前一段有一个新闻,有人让 ChatGPT 和 DeepSeek 下象棋,结果它们把「兵」当「马」跳,还凭空变出棋子,最后 DeepSeek 吃了自己一子宣布胜利,ChatGPT 还认输了……这说明,LLM 做 Agent 还得磨练。
AI Agent 的三大关键能力
课程里把 AI Agent 的能力拆成三块:根据经验调整行为、使用工具、做计划。这三点决定了它能不能从「听话工具」进化成「聪明助手」。
这个能力为什么重要?
人类做事靠经验,AI Agent 也一样。比如你写代码报错,编译器告诉你「缺个分号」,下次你就记得加分号。AI Agent 得有类似能力,看到反馈后调整下一步。
LLM 怎么做到?
LLM 不用调参数,直接把反馈塞进输入,它就变聪明了。比如:
这靠的是 LLM 的「上下文学习」(In-Context Learning),不用训练,输入变了,输出就变。
挑战:记忆爆炸
如果每次行动都把历史全塞给 LLM,步数一多(比如 1 万步),输入就太长,算力撑不住。怎么办?
课程提了三个模块:
实验发现,正面反馈(「这步对了」)比负面反馈(「这步错了」)更有效,因为 LLM 更擅长照着「好例子」学。
为什么需要工具?
LLM 再强,也有短板。比如它不会直接查天气,得靠外部工具。工具就像 AI Agent 的「外挂」,让它能干更多事。
怎么用?
一个通用方法:
用 Temperature(地点, 时间) 查温度
。今天台北多热?
[Tool] Temperature(台北, 现在) [Tool]
[Output] 28°C [Output]
台北现在 28°C。
常用工具包括:
挑战:工具多了咋办?
工具一多(比如上千个),LLM 不可能全记住。解决办法是用「工具选择模块」,像 RAG 一样,从工具库里挑合适的。更有趣的是,LLM 还能自己写代码造工具,存起来复用。
小心工具出错
工具可能给错信息,比如搜索引擎搜到恶搞贴说「披萨起司用胶水粘」。LLM 有一定判断力(比如「1 万度太离谱」),但有时也会被忽悠,得教它别太信工具。
什么是计划?
计划就是先想好步骤再行动。比如刷牙:找牙刷 → 挤牙膏 → 刷 → 漱口
。AI Agent 也得会规划,不然每步都随机试,太笨了。
LLM 能规划吗?
能,但不完美。给它说「做百万订阅 YouTuber」,它能列个计划:选主题 → 优化标题 → 做直播……听起来不错,但细节常出错。比如安排旅行,它可能忘了预算限制,或者行程撞车。
怎么提升?
有几个思路:
实验显示,新模型(如 o1)在「神秘方块世界」这种怪题上表现更好,说明推理能力帮了大忙。但有时它们也「想太多」,光模拟不行动。
未来展望
结语
AI Agent 是 AI 从「工具」到「伙伴」的进化。它用 LLM 的通用性,摆脱了 RL 的局限,虽然还不完美,但潜力巨大。
未来,LLM 可能不仅是 Agent 的「大脑」,还能模拟环境、造工具,甚至自己进化。到那时,你说「帮我赚一百万」,它真能自己开公司也说不定。
来源:https://zhuanlan.zhihu.com/p/29123783155
微信:dsxaigc
53AI,企业落地大模型首选服务商
产品:场景落地咨询+大模型应用平台+行业解决方案
承诺:免费场景POC验证,效果验证后签署服务协议。零风险落地应用大模型,已交付160+中大型企业
2025-03-11
Manus AI:一夜爆红的AI新星——谈谈我的感受
2025-03-11
Manus 的胜利是产品的胜利
2025-03-11
尽可能简单地解释模型上下文协议MCP
2025-03-11
AI Agent的瓶颈与AI WorkFlow的流行
2025-03-11
当天复刻Manus,CAMEL-AI 聊Agent及Agent协作的发展趋势
2025-03-11
喝点VC|红杉对话OpenAI Deep Research团队:AI Agent将成为今年最具突破性技术,强化学习重新回归主流
2025-03-10
【一文看懂】大白话解释大模型的技术原理,为什么它那么聪明?
2025-03-10
【一文看懂】7B、175B,这些大模型参数是什么意思?它们是怎么算出来的?参数越多=模型越强?
2024-08-13
2024-06-13
2024-09-23
2024-08-21
2024-05-28
2024-07-31
2024-08-04
2024-04-26
2024-07-09
2024-09-17
2025-03-10
2025-03-10
2025-03-10
2025-03-10
2025-03-08
2025-03-08
2025-03-07
2025-03-07