支持私有云部署
AI知识库

53AI知识库

学习大模型的前沿技术与行业应用场景


真格基金戴雨森:长聊 AI Agent,各行业都会遭遇「李世石时刻」(上)

发布日期:2025-04-01 12:57:27 浏览次数: 1589 作者:真格基金
推荐语

真格基金戴雨森深入解读AI Agent的未来发展及其对各行业的影响。

核心内容:
1. AI行业两大重要事件:o1和R1的发布及其影响
2. o1和R1带来的推理能力提升、成本下降和编程能力增强
3. 2025年Agent应用前景及AI公司的新动作和调整

杨芳贤
53A创始人/腾讯云(TVP)最具价值专家

上个月,真格基金管理合伙人戴雨森与「晚点」长聊了一次 AI 与 Agent。我们将这次访谈整理成完整版文字稿,分为(上)、(下)两期发布。


去年至今有两个重要节点:o1 和 R1。它们分别带来了两个对 AI 全行业的影响:


  • 一是 o1 在大语言模型中引入强化学习,开启 pre-training(预训练)Scaling Law 之外的 post-training(后训练)和 test-time computing(即推理阶段的计算)阶段的新 Scaling Law,让模型推理能力大幅提升。


  • 二是与 o1 同为推理模型的 DeepSeek R1 强势开源,以极低的成本,和后续引发的巨大全民影响力,让很多人重估了大模型行业当前的最重要课题:提升模型能力。R1 的开源和同期发布了详细技术报告另一个推理模型的 Kimi-k1.5 ,也明确告诉整个领域,一些方向是「此路不通」,他们都没有使用蒙特卡洛树搜索等方法。


这期节目,雨森和「晚点」从 o1 和 R1 开始聊,二者一同带来的推理能力的提升、成本的下降,和同期模型编程能力与工具使用能力的提升,开启了 Agent 在 2025 年的应用前景。


雨森详细分享了他对 Agent 机会的当前观察,以及在 DeepSeek 带来的开源生态的变化中,大小 AI 公司的新动作和调整。



01

OpenAI o 系列与 DeepSeek R 系列的启发


Q:过去这将近 6 个月,AI 届最重要的两个事:一个是 OpenAI 去年 9 月 o1 的发布,另一个是近期 DeepSeek 在发布 R1 后掀起全球狂潮。我们可以从这两个最重要的事儿开始聊。你可以先讲讲,你怎么看 o1 和 R1 分别的意义?


戴雨森:我觉得 o1 首先让大家看到了 Reinforcement Learning 应用于 post-training 领域所带来的智能提升。因为当时大家都在想在 ChatGPT-4o 之后下一个是什么?o1 出来之后,确实在推理方面还有很多智能的表现上得到了很大的提高。后来 o3 发布,又证明沿着 o 这条技术路线,模型的能力还能持续提升,它的边际还很远、空间还很大。


听说 o4 mini 也训练完了,从这里面我们既看到了,在 post-training 阶段用 Reinforcement Learning 实现了 post-training 的 Scaling Law。同时也看到了,当模型推理的时间越来越长,给出的回答质量也越来越好,这就是 test-time compute scaling law,也叫推理时间的 Scaling Law。这两条新的 Scaling Law,在之前 pre-training 的基础上,让 AI 模型能进一步提升。


之前头部的那些公司或多或少也了解到 Reinforcement Learning 挺有用的,能提升模型的表现。但 o1 出现之后,大家才确定这条路真的能行得通。我觉得 o 系列模型带来的推理能力提升,是解锁 Agent 这种产品形态的关键。因为模型的思考能力不够强,它就没办法自主使用工具、制定计划、检查自己的工作有没有完成,可这些都是 Agent 产品必备的点。所以得先靠 o 系列提升模型的思考能力,才能解锁新的产品形态。


Q:o4 和 o3 大概的区别是什么?或者说它主要优化迭代的是什么?


戴雨森:最近有一些八卦消息,据说像 o4 mini,它的推理时间可能达到几个小时的级别。我就在想,优秀的人类和一般人类的区别是什么?为什么博士论文要写 5 年?因为一个博士他可以通过 5 年的时间得到一个更好的、更高价值的工作。但是换成普通人,给他 10 年可能都写不出一篇博士论文。所以首先这个人基础素质要好,其次还得有足够的时间。


我们常说训练模型,其实就跟培养一个更聪明的人差不多。但是聪明的人需要更多时间来传递更好的工作,这就是推理时间的 Scaling Law。在 o 系列模型,比如 o3、o4 中,模型能够思考更长的时间、得到更好的结果,逐渐成为一个愈发可及的目标。


Q:刚刚讲的是 o1。简单总结一下:o1 证明了强化学习在后训练以及测试时间计算的 Scaling Law 方面,有着很大的潜力,而且这事儿还可以走很远。这是 o 系列的价值。


接下来可以说说 R1,我觉得在某种程度上,它的影响力超过了 o 系列,因为 R1 是全民都在讨论的热点话题。


戴雨森:我觉得 R 系列确实是一个世界级的工作,这里面给了我们非常多的启发。第一就是开源 VS 闭源。当它选择开源后,大家就能了解模型的训练过程。在 R1、V3 的训练论文里,我们看到了大量 OpenAI 早就知道,但公众此前并不知道的事情。比如 DeepSeek-R1-Zero 证明了,在不用 SFT 的情况下,仅基于基础模型 V3 进行 Reinforcement Learning,就能让模型输出更长的长度、获得更好的智能,实现推理的 Scaling Law。不用 SFT 这一点是个很重要的创新。然后是 GRPO,听说 OpenAI 之前就知道它,不过是 DeepSeek 的文章让大家意识到 GRPO 这条路可行。之前很多人在探讨 o1 时,会思考是不是可以通过 MCTS 这种搜索方式去实现,或者像 PRM 那样按步骤标注进行 reinforcement 来实现?但 DeepSeek 很慷慨地分享说,他们试过这些方法,都行不通。其实很多时候,知道一条路走不通是很重要的。


我最近学到一个词,叫「一比特信息」,意思是有些关键信息,一个比特就足够传达了。


我觉得 DeepSeek 这篇论文厉害之处就在于,它给大家提供了这些「一比特信息」。比如 MCTS 此路不通,至少 DeepSeek 试过不通,那大家就不用在这条路上白费力气了。这种「一比特信息」一方面体现了 DeepSeek 慷慨的分享精神,另一方面也反映出硅谷和中国的差距,硅谷可能还有一些「一比特的信息」我们不知道。根据我们去年做的一些了解来看,2024 年年中,在硅谷 RL 这条路线走得通已经是一线实验室的共识,但这个信息传到中国,可能要等到 o1 和 R1 出现后。所以说,前沿探索的关键信息很多都藏在这些「一比特信息」里。


开源的分享精神有很多好处。一方面,让模型的同行训练者学到了大量知识。另一方面,我们也看到微信、百度这些原本就有自己模型的公司,也因为 DeepSeek 开源接入了它。这样一来,使更多人能用上好模型,比如我们投资的 Monica,最近推出的国内版也用上了 R1。以前,很多国内的应用开发者在海外做应用,也是因为海外有 ChatGPT-4o、Claude 3.5 等好模型,所以他们能做出好的产品。现在国内有了 R1 这样好的模型之后,开发者们手头的「武器」更丰富了。而且,开源还能促进整个行业更快发展,大家可以互相学习、共同进步;


刚才提到了第一点,是开源带来的胜利。第二点,我觉得是强化学习(RL)的胜利。OpenAI 并没有公开 o1 训练的具体细节,但 R1 的公布让大家看到,Reinforcement Learning 这条路真的能走得很远,为大家指明了一条值得深入探索的方向,所以我觉得这是 RL 的一大胜利;


第三点,R1、V3 以及整个 DeepSeek,都充分证明了团队专注的重要性。在资源受限的情况下,大家反而能想出更具创造性的解决办法。比如,用 MOE 是一种节省资源的方式,要是用传统的 dense model,推理成本和训练成本都会高很多。而使用 MOE,并且在芯片等面临「卡脖子」问题时,通过像 MLA 这样的技术创新,在合法合规的前提下,让训练和推理得以顺利进行,还能取得更好的效果。这就说明,资源限制往往能成为创新的动力源泉。


同时,DeepSeek 也是一家在研究方向上做了很多选择的公司。2023 年,很多人都在做多模态生成、AI 虚拟女友这类项目,也有不少人专注于 to C 产品的开发,但 DeepSeek 并没有跟风。他们直到 R1 发布之后才推出自己的 App。虽然 DeepSeek 已经拥有很多卡、钱以及很优秀的人,但他们依然专注于提高智能、提升模型的基础能力,把力量集中在一个方向上,最终获得这样的结果。这不仅体现了他们对技术发展方向的精准判断,也展现了坚定选择、坚决投入所带来的好的结果。


同时,这也让我们看到,年轻的 AI native 团队是有能力跟规模更大、资源及用户更多的大厂 PK 的。以前大家总觉得大厂在资金、人才、卡和用户数量上占据绝对优势,小公司根本无法与之抗衡。DeepSeek 虽然不是普通意义上的小公司,但相对来说,它还是比较年轻的团队,团队里很多成员都是中国本土培养的研究生、博士生。这让大家对中国的人才体系充满信心,这一点也很关键;


还有一点对我来说也很重要,DeepSeek 证明了在技术革命的早期,如果能通过技术进步为用户带来全新的、像魔法般的体验,就会收获意想不到的成果。很多人第一次使用 DeepSeek 的 R1 模型,第一次用到 reasoning model,看到它输出的结果,用户会觉很棒。这会引起自发的传播,带来了大量的自然流量,在没有投入一分钱广告费的情况下,就获得了几千万的日活跃用户(DAU)。同时,它的 API 也供不应求,很多人都愿意付费使用,甚至有人主动提出希望能有一个付费稳定版的 R1 模型。这也意味着,技术进步带来产品体验的变革,产品体验的变革带来用户的自发传播、自然流量,同时也会涌现出商业模式。所以我觉得,在技术革命的早期,要坚持技术的突破、在智能上的领先,而不是在已有的智能上进行产品、运营的雕花。


Q:你觉得这个已经是共识了吗?


戴雨森:之前有不少人提出过,2023 年到 2024 年期间,有很多研究者表达过「智能很重要,不要在已有的基础上雕花」。但我觉得大家需要一个实际的、鲜活的例子。在 2024 年 DeepSeek-R1 出世之前,大家都过于关注互联网时代的指标,比如 DAU、用户留存率以及用户使用时长等。就拿当时很火的 AI 虚拟女友和 AI 打电话功能来说,为什么会有那么多人热衷于开发这类产品呢?原因就在于,从数据上看,这类产品的用户留存率比较高,用户与它们互动的时间也很长。毕竟和 AI 打电话,时间自然就拉长了。但这真的能代表智能提升吗?至少我个人觉得,这更多是满足了用户的情感需求,并不是智能的提升。如果把时长、DAU 作为优化指标,就不会去做 Deepseek 这样提高智能的产品。


在中国互联网领域,一直存在着不少争议。大家都知道企业服务的土壤不足,而且似乎用户更愿意为杀时间付费不为省时间付费,所以大家都习惯性的寻找下一个字节跳动。我在 2024 年 10 月给我们的 LP 做汇报时就提到,未来可能不会再沿用字节跳动的公式,因为字节跳动是通过占用用户时间去赚钱的,然而用户的时间是有限的,抖音、王者荣耀等已经占据了用户大量的时间。所以,接下来具有创新性的「杀手应用」,可能会是那些能够帮用户节省时间,或者在这 8 小时、 16 个小时以外去给用户创造价值,而不是一定要把刷抖音的时间抢过来,那是很难抢的,抖音很厉害。在这种情况下,DeepSeek 就成为了一个很好的范例。



02

Agent 带来资本转化为生产力的 Scaling Law


Q:以 o 系列和 R 系列为代表的推理模型,接下来会带来哪些行业和应用变化?有一点你之前已经提到过——推理能力的提升,会指向 Agent 应用,这也是从去年下半年到现在大家频繁讨论的话题。


戴雨森:按照我们刚刚讲的框架——技术进步解锁新的产品形态。我们可以看到,从 GPT 逐步升级到 GPT 3.0,然后对齐成对话模式的 InstructGPT,最后出来 GPT-3.5 模型,解锁了 Chatbot 这种产品形态;以 Sonnet 为代表的 coding 能力很强的模型,则解锁了像 Cursor 这样像编程助手的产品形态,可以说是相互成就的关系,如果没有 Sonnet,Cursor 就不可能火。从 Sonnet 3.5 开始,模型开始具备一定的推理能力,而 o1 及后续的 o 系列模型的进展,让模型的推理能力变得很强。解锁对应的产品形态,我觉得可能就是 Agent。


什么叫 Agent?在英文里「agency」有主观能动性的含义,以前地球上只有人类具备主观能动性,我们清楚自己的目标,能够制定计划、使用工具、评估工作成果,这也是人类得以统治世界的原因之一。但是现在 AI 的能力逐渐到达了一个突破点,使得 AI 能够扮演 Agent。


在我看来,AI 能够实现这一转变,是由三个技术的进步解锁的:


  • 第一是 reasoning。推理能力是 AI 的基础智能,如果推理能力不足,就会面临一系列问题。比如,它无法明确自己的任务目标,难以制定出切实可行的执行计划,更无法判断自己是否完成了任务。


  • 第二是 coding 能力。在数字世界中,理解 code、写 code、完成各种任务是基础技能,是赛博世界的「语言」。


  • 第三是工具使用能力。在数字世界,人已经为自己造了这么多的工具、软件,那 AI 要想充分发挥作用,首先得适应人类用的这些工具。比如,AI 需要借助人类的浏览器、网站来获取信息。


在过去的 12 个月里,推理(reasoning)、编程(coding)和工具使用(tool use)这三种能力都发生了翻天覆地的变化,进入指数增长的阶段。为了衡量这些能力,业界有一些不同的 benchmark(基准测试)。以推理能力为例,我们常用 GPQA 进行测试,这是一种模拟人类博士生入学资格水平的测试。在这个测试中,普通人类大约能得 20 多分,人类博士生能达到 60 分左右。在 2024 年年初,AI 领域最前沿的模型仅得 10 几分。但如今,像 o3 这样的前沿模型,得分已经达到了 70 多分(如果我没记错的话),所以这个涨得非常快。


在衡量 AI 的编程能力时,大家常用 SWE-Bench 进行测试,它抽取了一系列 GitHub 上真实的人类编程任务。在 2024 年初,4o 得分只有个位数,基本是不可用的状态。但现在,o3 已经到了 70-80 分的程度,这意味着人类 70%-80% 的编程任务 AI 都可以解答。


如今,AI 能力的快速发展给我们带来了一个新的问题,那就是我们很难再找到合适的题目来测试 AI 了。前段时间,陶哲轩提出了一个名为 Frontier Math 的测试,里面最简单的题目都是 IMO(国际数学奥林匹克竞赛)级别的难题。当时大家认为,这些难题至少能够挡住 AI 几年的时间,结果现在 o3 模型在 Frontier Math 测试中已经能拿到 25 分,o4 模型的表现更好。


一旦 Reinforcement learning 应用到某个领域,相关 AI 的成长曲线常常呈现指数式增长。就像之前 AlphaGo 的出现,它运用强化学习技术,在围棋领域取得了巨大突破。后来,DeepMind 开发的 AlphaStar,在《星际争霸》游戏中,也凭借强化学习,迅速超越了人类顶级玩家。还有自动驾驶技术,其实从技术层面来讲,自动驾驶已经比人类驾驶安全很多倍了,只是由于各种监管因素,还没有大规模应用。我把这种 AI 能力超越人类的标志性时刻称为「李世石时刻」。大家应该都记得,李世石与 AI 进行围棋对决时,五盘棋输了四盘,那时候发现,AI 原来连最强的人类都能轻松打败。


Q:人类是不是很快就没有能够评价 AI 能力的能力了?


戴雨森:我觉得现在已经很缺乏了。就像 Alexandr Wang 弄出的那个「Humanity's Last Exam」的问题,现在也到 20 分了。


Q:满分是 100 分吗?


戴雨森:对,从 20 分到 80 分可能很快的。关键是人类要想出来难题来,那无疑对人类而言是个很大的挑战。但是如果 AI 靠花算力、靠 RL、靠更强的 inference 就能实现的话,差距是很难赶上的。


Q:像你刚刚提到的「李世石时刻」,开端肯定是 AI 超越了人类,这一点是很直观的。我和一些围棋爱好者交流过,比如楼天城,他说当 AlphaGo Zero 出现后,不仅超越了人类,而且人类的智能其实不能理解它。他觉得下围棋和做自动驾驶都是这种感觉,自动驾驶试乘是试不出来什么东西的。下围棋也是,人类积累了上千年的定式,被 AI 轻易打破了。


戴雨森:我觉得可理解性和可解释性其实并不一定存在的。


Q:因为按照第一性原理,人类现在根本没有办法掌握世界上所有的真理和规律。


戴雨森:比如我们也没法理解爱因斯坦当时是怎么想出那些理论的,如果你进一步来想,猫猫狗狗肯定也理解不了人类为什么要做各种各样的事情对吧?如今 AI 发展这么快,我们可能很快就会面临一种情况,就好比小学生去考核博士生。现在我们可能正逐渐处于这样的阶段,小学生绞尽脑汁想出自己觉得超难的题目去考博士生,可对博士生来说,这些题目可能并不难。


这对 AI 安全来说,是个至关重要的问题,我们可能无法评价了。因为现在很多人类已有的测试,AI 都能轻松刷到 95 分以上。像在清华读书时经常有人讲,有人考 100 分是因为他的能力上限就是 100 分,而有的人考 100 分是因为试卷满分只有 100 分,如果满分是 1000 分,他也能考 1000 分。


Q:现在已经到了这个阶段吗?就我们已经无法评价 AI 的能力了。


戴雨森:我觉得还不是无法评价,但已经在可以预见的未来,可能在小几年的时间内就很难去评价了。


Q:那个时候会带来什么什么呢?


戴雨森:其实现在大家已经看到了很多相关的苗头。比如春节期间有一篇文章,据说是梁文锋发在知乎上的回应,非常火,后来大家发现那就是 DeepSeek 写的。


我最近一直在用 OpenAI 的 Deep Research,它给了我很大帮助,也带来了很多震撼。咱们刚才聊到 Agent,其实 Agent 的第一个应用场景就是帮我做研究。我向它提出一个问题,它得思考如何解答、列出研究计划、寻找资料、进行总结和对比。从原来没有 reasoning 能力的 4o,到后来出现了 o1。接着,o1 有了 o1 pro,能进行更深入的思考,再到 o3 mini high,然后又有了 Deep Research。整个过程也就花了 3-6 个月的时间,但我明显感觉到它的水平提升是呈指数级的。


昨天我就在想,要是从大街上随便找十个人,我觉得至少有九个人的能力已经比不上 Deep Research。因为 Deep Research 能在几分钟内,针对任何你需要的话题,给出一份在我看来达到在较好公司工作一两年的白领水平的研究报告。其实很多人即便花再多时间,也不具备这样的思考推理能力、信息获取能力以及总结能力。所以我觉得 AGI 已经不再是一个科幻概念。要是两年前大家谈论 AGI,还觉得那是很遥远的事,但现在在收集信息、整理信息这类任务上,AI 已经超过了大多数人。


Q:像我们这样的人,比特进比特出的信息工作者。


戴雨森:所以像今天这样的聊天对话,AI 目前还做不到。毕竟这是我们之间的专有信息,在聊之前,这些信息根本不存在。但要是这些信息已经存在某个地方,不是专有信息的话,那 AI 肯定比绝大部分人做得要好得多,这点我很确定。可以说,AI 的增长速度真的特别快,我们已经看到了它的指数级增长,也会见证很多刚才提到的「李世石时刻」的到来。


回到最开始的话题,我觉得解锁 Agent 有着非常重要的意义。过去,互联网上所有的产品模式,我觉得可以用一句很著名的话来概括,就是「Attention is all you need」。


不管是腾讯还是字节,它们的核心都是看有多少用户在自家产品上花了多少时间。这其实可以用一个公式来理解:时长×用户数×变现率。所以大家都想着怎么吸引更多用户,让他们花更多时间,然后提高变现率。但这件事肯定是有上限的,毕竟总共就这么多人,每个人一天睡 8 小时,醒着最多 16 个小时,还得吃饭、工作,有些事儿还不能看手机,所以很难把看手机的时间再提高一倍。于是大家就想提高变现率,同样的一个小时我怎样在你这获取更高的价值,就变成了抖音的视频广告、直播,但这条路肯定也有尽头。


在人类历史上,所有事情基本都需要人的 Attention,只有一种情况例外,就是自动化,以前的机械自动化,比如机床,人把自动化系统搭建好后,它就能自行运转,但它没有主观能动性。目前 AI 技术的进步带来了一种,第一不需要人类的注意力,第二又能自主执行任务的可能。不夸张地说,这是人类诞生以来最大的进步。如果说人类和其他动物的区别在于人类会使用工具,而以前人类用的工具都需要 Attention,直到现在有了 Agent 这种不需要 Attention 的工具。就像我把问题丢给 Deep Research,它自己研究 5 分钟,这期间我不用 Attention。去年我用 Devin 的时候,给它一个任务,它就自己去干,我可以中途打断它,提出新需求,也能看看它的进度,但要是我不打扰,它就自己完成。所以我想提出一句新的话:在 Agent 时代,「Attention is not all you need」。


它会解锁人类无限的潜能。前面说了,人类的 Attention 是有限的,如果人类的 Attention 不需要再被使用的话,那它的理论倍数是无限的。这就好比从老板的角度让员工做事,就不用 Attention。以前大部分人都是执行别人 Attention 的结果,只有少数人是老板。


但现在 AI 越来越强大,每个人都能当 AI 的老板。那让 AI 做什么是一个很重要的问题。很多人觉得助手很聪明,除了订机票、订外卖这些简单事情,但不知道让它干什么。我觉得这对社会、教育都会有重大影响,不过我相信,等大家适应了这种范式之后,会发现有更多事可以交给 AI 去做。进一步延展,我觉得我们可能会看到一种工作的 Scaling Law。其实现在工作、生产力不太容易被简单地扩大,比如一家大厂,即便有 100 亿甚至 1000 亿资金,也不能直接把这些钱转化成生产力,还得招人、培训,人多了还会有内斗,所以有钱不一定就有生产力。但如果 AI 模型越来越强,模型的推理能力也不断提升,你会发现有钱就等于有算力,算力越多,就能让 AI 产生更多生产力,这就是资金转化为生产力的 Scaling Law。


Q:但世界上需要这么多的生产力吗?


戴雨森:这就跟在汽车和飞机发明之前,大家的想法一样。那时候人们会觉得,要去隔壁村,走路过去就行了,为啥要坐飞机呢?


Q:你觉得它会创造新的需求?


戴雨森:我至少觉得历史上大量的技术已经重复验证了这一点。


Q:相比人类物种和长期的古代历史,其实人类的技术爆炸的时间很短,也就四五百年。


戴雨森:这是个更有意思的点。原来人类的技术爆炸是以「一代人」为单位的,逐渐变成了,一代人的生命周期里,能经历几次技术爆炸?现在技术爆炸的周期已经缩短到了十年以内,从 AlexNet 问世到现在不过 13 年,从 ChatGPT 诞生到现在也没过去多久。回想 ChatGPT 刚出现的时候,都觉得它的能力很牛,但放到现在来看,当时的它其实还有很大的提升空间。技术变化这么快,人们可能很难及时适应,这势必会对社会产生很多影响。


抛开这个之外,指数增长本来是世界的常态,但指数增长在最后陡峭的曲线之前,它看上去很像线性增长。有句话叫「gradually then suddenly」,在进入快速上扬阶段之前,一切看起来很平静。这也是关注 AI 安全的人如此担心的原因,现在大家都觉得已经进入指数增长阶段,这就不叫未雨绸缪了,已经开始打雷、快下雨了。我觉得生产力的大幅提高是一个很重要的变量,如果你认为生产力最后带来的是经济价值的话。


那问题就变成了生产力是什么,以及怎样让它为大家创造价值。一方面,就如 Sam Altman 所说,一个人的公司会变得很强大,如果一个人能够很有效的指挥 AI,甚至通过 AI 指挥 Agent,那他可能创造很大的价值;另一方面,以往创业者之所以有时能打败大厂,是因为他们能更高效地把资金转化为生产力,因为他们有更敏锐的 vision、更努力、没有组织的阻力。但假设大厂投入大量资金去聘请很厉害的创业 Agent,那普通创业者可能就难以与之抗衡了,或许只有顶级创业者能够打败大厂,一般创业者可能会被大厂花钱请来的 AI 淘汰,这也是说不好的事情。所以有人认为,这会导致富人更富有,因为富人能买来更多生产力。过去,一个人固然有钱,也可能比不过一个聪明的年轻人,但未来情况可能会不同。


Q:这是两个方向,一个是其实是超级个人,一个是像「科幻乌托邦」那样,将资源逐渐汇聚到更厉害的公司。


戴雨森:所以我觉得 AI 带来的变化是很大的,不管是从生产力角度,还是社会结构角度来看。不过,要解锁这些变化,前提条件是模型能力得提高。我觉得,在技术革命早期找到第一个 PMF,有时候就像是个甜蜜的陷阱,甚至可以说是诅咒。比如移动互联网,黑莓算是第一个找到 PMF 的。当时技术有限,处理器弱、网络慢,所以它觉得只能搞发邮件、发黑莓消息、收推送这些功能。为了做好这个 PMF,就做了带键盘的黑莓手机,还一直以键盘为傲。可后来技术进步了,处理器更强、网络更快、屏幕更大,苹果直接说不要键盘,做了全触屏手机。那时候黑莓还觉得没键盘打字、发邮件肯定不好用,这就是 PMF 的诅咒,当后面技术一升级,就被自己的 PMF 困住了。


互联网也有这种情况。雅虎是互联网领域第一个找到 PMF 的公司,搞的是门户模式,就是把信息列出来给用户看。后来搜索引擎 Google 出现,对雅虎是个巨大的冲击。原来雅虎是很复杂的,有大量内容,得点进去看,而 Google 就一个搜索框,直接输入就行。其实雅虎曾经有机会收购 Google,可惜出价不够高,后来就被 Google 给颠覆掉了。


所以我想说,像聊天机器人(Chatbot)可能也是个甜蜜的陷阱。现在有这么多 chatbot,大家可能就想着在这基础上优化。但我一直觉得,chatbot 可能会限制前沿 AI 模型能力。比如你和 ChatGPT、Kimi 或者豆包聊天,是不是习惯像在微信上那样特别碎片化的短对话。但如果要给 agent 一个指令,很多时候就得写个更重要的 proposal,就像申请国家自然基金的 Grant,得完整阐述要做的事、目标和条件,得进行完整沟通。但在 chatbot 这种类似微信的语境里,只能进行碎片化沟通,模型的智能都不一定能体现出来。


我之前跟 OpenAI 的同学聊,他们说发现先进的模型在和用户聊天时,并没有让用户满意度提升太多。这就有点像跟人在微信上聊天,你跟一个普通大学生和一个科学家聊,感觉差别没那么大。但要是让他们写博士论文,那完全是 0 和 1 的区别。所以说,Chatbot 这种早期容易被大家接受的产品形态,不一定就是能走到最后的产品形态。


如果在这个基础上进行短期的指标优化,比如说想办法让大家在 chatbot 上停留更久,然后就出个打电话功能。但打电话和智能提升是不是一致的?因为把电话打好,可能靠的是说话语气、情商,跟智能、提升生产力没关系。我在想,历史上经常出现这种情况,那些先找到第一个 PMF 的人,如果不继续深入探索,很可能就会被这个 PMF 给困住。


Q:我们刚才做了很多关于 Agent 的展望,如果按照你说的工作 Scaling Law 的逻辑,在 2025 年的话,第一批出现的 Agent 会是什么样的形态呢?


戴雨森:第一批的话,我觉得像现在最火的 Deep Research。你看 OpenAI 出了 Deep Research,不过最早是 Google 推出的,接着 Perplexity 推出了 Deep Research,而且我知道好多创业公司也打算往这个方向发展。为什么大家要发展这个方向?因为大家发现,让 AI 更深度地去研究信息、获取更多资源,再根据获取的内容决定下一步获取什么样的信息,形成这么个循环,最后给出一个研究报告,这其实就是我们平时让分析师干的事情。但大家发现,花差不多的时间,甚至稍微多花点时间,用这个就能得到更好的结果。我们把这叫「read only Agent」,就是它只做读取操作,不做写的操作。我觉得目前这个 PMF 已经很明显了,我用的 Deep Research 确实比我的实习生干得还好。所以我觉得,对于我们这些知识工作者,需要在电脑前研究某个话题、浏览一堆网站然后出报告的人来说,付费意愿和使用场景都很明确。


第二步就是从读到写。OpenAI 推出了 Operator,Anthropic 推出了 MCP,其实都是在说 AI 怎么使用工具。不过这也会带来很多安全隐患,毕竟大家都不希望 AI 乱搞。但显然,在可控的情况下,让 AI 可以写操作、对外发布信息,是非常重要的能力。我们们投资的 Monica 就在做类似的产品——现在大家知道了,它叫 Manus。昨天他们跟我分享了一件很有意思的事,比如说有个测试问题,要获取美国某个城市,像凤凰城之类的地铁时刻表。这个模型先去官网查,发现链接打不开了,这时候它直接调用邮件客户端,给凤凰城的市政府发邮件询问,最后走到了确认是否发送邮件这一步,它完全能自主做这些事。


Q:这是他们的产品吗?


戴雨森:对,他们的产品能调动工具、调用浏览器,这里面有很多有意思的特点。比如说 AI 能主动使用工具,还有自己的「电脑」,这就很有意思。以前很多人觉得,像国内 AutoGLM 这类应用,是让 AI 操控我们的手机,比如让 AI 在我们手机上点外卖。但仔细想想,助理干活是用自己的设备还是用你的设备呢?肯定是用他的。所以应该是我的 AI 助理在云端,有他自己的手机或者电脑,然后用他自己的设备给我点外卖,而不是用我的手机,毕竟我自己还得刷抖音、聊微信。这其实就是虚拟化技术。


Q:那在权限上,他还是你的账户体系,对吧?


戴雨森:不一定,有可能给 AI 配一台它自己的「电脑」。比如说你订了个很贵的 Bloomberg(彭博终端),说不定你的 AI 助理会说:「老板,把你的账号借我用一下。然后你输入账号,让他去用。还有一种情况,你也可能给你的助理也买个 LinkedIn 的 premium,让他使用,这些情况都有可能发生。


其实你会发现,当 AI 能使用工具时,他能做很多事情。毕竟大部分软件工具的使用方式,要么就是调用 API,要么就是操作软件界面本身。所以 Kimi k1.5 里的多模态推理很重要,特别是在使用软件界面的时候,使用软件界面得看懂网页才行。现在大家都在说世界模型去理解世界,这其实挺难的。举个简单例子,我们看东西能知道物体有前后、有深度,但现在 AI 在识别深度信息的方面表现一般。不过,要是只是操作电脑和手机界面,AI 能做很多很多事情。


Q:所以这是第二种,就是既可以读又可以写。


戴雨森:我可以写的话,我再随便举个例子,当 AI 遇到问题的时候,理论上它可以发帖求助。甚至它可以悬赏,因为它已经和支付商绑定好了,谁帮它把事儿解决了,就给对方 100 美金。这不是科幻情节,现在完全能做到。而且我们发现,强大的 AI 模型能想出很多人类想不到的解决思路,比如说人类觉得某个问题解不出来,AI 可能就会想能不能换个问题,或者能不能获取原本没有的权限。


不过这也是 AI 安全研究里需要关注的事情,因为 AI 为了解决问题,可能真会做出一些有伤害性的事。我自己就碰到过一个典型例子,我用 Windsurf 让它做一个个人网站的示例,它为了部署这个网站,说有两个进程占用了端口,要把它们杀掉,我当时同意了,可后来一想,万一杀掉后系统崩溃了怎么办。它只是为了部署那个演示网站,却没考虑到可能对我造成的影响。当然这些问题是可以对齐的,但这里面存在很多潜在风险。


所以说,这种具备「写」功能的 Agent,一旦做好了能力很大,但部署起来肯定会更慢,因为它可能带来的后果也很大,需要对它进行大量监控、训练和对齐,还要防止它被滥用,所以我觉得「读」会比较快。「写」的话,Operator 是个例子,你用它订机票,会发现它还不如自己订快,每一步都要确认。不过在 AI 领域,慢的问题总能解决,从慢变快、从贵变便宜,这是一直 AI 都在发生的事情。可以想象一下,要是原本助理需要花 30 分钟完成的事,AI 一秒钟就能搞定,那每天能多做多少事?空出的时间还能去做其他更多的事,这对大家的冲击会很大。


Q:这个进阶的路程,是不是就是 OpenAI 之前定义的那五个技术级别?Agent 下面就是创新者,再下面就是组织者。


戴雨森:对,这里面又会衍生出几个问题。最简单的一个就是,现在是人指挥 Agent,那能不能实现 Agent 指挥 Agent。假设每个任务都能在一秒钟内完成,那人类提问题的速度都跟不上了。


Q:以后做采访提纲,可能就是 Agent 对接雨森的 Agent,然后它们就把提纲写好了。


戴雨森:我觉得这完全有可能实现,不过有个重要问题,就是 memory(记忆)。现在你用 ChatGPT 和我用 ChatGPT 回答同一个问题的结果差不多。但如果是和我相处了几年的助手,除了公有的那部分外,回答问题肯定会和你的不一样。这样咱俩的 Agent  才能有内容可聊,因为我们都有我们自己的 memory,但现在这个 memory 机制还非常初级。


我觉得记忆这一块特别重要,大家都在做但还没做得特别好。就拿 ChatGPT 来说,它所谓的记忆,其实就是跟你交流时形成了一个系统提示(prompt),比如记住「这个人有一条狗,这个人是个大学生」之类的,这很简单。但实际上,真正的记忆非常长,而且这些记忆有的是你跟它对话时主动灌输给它的,有的可能是它通过其他方式获取的。总之,记忆肯定是很关键的一点。


还有 online learning 这也是非常重要的点。人有个独特的能力,目前 AI 还不具备,现在 AI 模型更新权重还得发布新版本。但人在日常生活中,不管是通过读书还是社交,都能不断学习,主动改变大脑里的「权重」,这是生物的一个特点,而 AI 现在每次更新都得经过一个训练过程。


另外,现在还有很多很有意思的前沿探索话题。比如说,现在 Agent 用的是人类的工具,但要是它比人类聪明十倍、快十倍,为什么还要用人类的工具呢?这就好比我们不会用小孩子的餐具吃饭,肯定会用适合大人的餐具。所以,可能会有一系列专门为 AI 设计的工具,给超人设计的工具,肯定和普通人用的不一样。在这方面,AI 专用工具以及 AI 如何迭代自己的工具都是值得研究的,说不定到时候它的工具我们人类都不会用,就像很多人不会用 EDA 一样。


Q:而且有可能这个工具 AI 自己能设计。


戴雨森:所以再往下想,这里面的迭代速度快到科幻领域了。不过现在我们发现,很多原本觉得是纯科幻的概念,已经不是遥不可及了,只要模型再发展发展,这些事情就能实现。所以我觉得,这里面,智能的进步会解锁新的产品形态。而且这些新的产品形态可能会非常厉害,要是只在原来 Chatbot 的基础上做优化、雕花,说不定很快就会被颠覆。


Q:其实我们两三个月前聊 Agent  的时候,你还会提到 coding,刚才你没提到 coding。


戴雨森:你是说用来 coding 的 Agent 是吧,我觉得 Agent 和 coding 的关系,第一步是去做 coding 的 Agent,像 Cursor 或者 Windsurf 这样,这算是目前 Agent 比较容易落地的场景。但我觉得更进一步是 Agent that can code,比如说你的助理可能是文科生,要是让他学习写代码,他能写个爬虫帮你搜集更多信息,这样采访的时候你就知道该采访谁,相当于你的 Agent 掌握了编程这项新技能  code。我觉得这会是接下来更大的发展范式。


最开始,Agent 主要是用来写代码的,但需要写代码的人没那么多。像 Cursor、Windsurf、Devin 这些开发工具,其实主要面向程序员。可程序员在人群中占比毕竟有限,那对于更多非程序员的知识工作者,也就是普通白领来说,他们的 Agent 该发挥什么作用呢?我觉得写代码对他们的 Agent 来说是必备能力,因为它只有靠写代码才能够在这个赛博世界行动自如。


Q:行业发展真的很快,几个月前大家聊 Agent,还觉得 coding 是一个方向,也有很多人朝着这个方向创业。但现在再聊,就是要有能写代码的 Agent,然后让它去做更多的事。


戴雨森:以前的 Agent 是专门写代码的 Agent(Coding Agent),现在是一个 Agent 可以写代码(Agent that can code)。


Q:你觉得做好 Agent 还需要哪些能力?


戴雨森:我梳理一下,现在三大能力:推理、代码、工具使用,然后再接下来是记忆、online learning。这几个我觉得都是非常重要、还没有解决的问题。


Q:在 2025 年做 Agent 这件事,你觉得会是更多由应用公司来做,还是像 OpenAI 推出 Operator、Anthropic 推出 Computer Use 那样,由模型能力特别强的公司来做呢?


戴雨森:目前来看,模型公司确实能利用 RL 提升模型能力,并且用更强大的模型对自己的模型进行优化,它们可能确实有一定优势。不过,应用公司也有几个好处。第一,它用多种模型去混合,发挥各个模型的长处;第二就是用户心智方面,就拿 Perplexity 来说,它一开始做 AI 搜索,其实是占据了用户的心智,它用的模型在不断升级,多数用户就觉得它是 AI 搜索的代名词。Cursor 也是个很好的例子,一开始大家觉得它就是套壳,但实际上它和模型是相互成就的过程。要是没有 Sonnet 3.5,Cursor 就不会那么火,也实现不了预测下一步代码的功能;而要是没有 Cursor,Sonnet 3.5 可能也缺少一个能让它火的载体。


Q:你刚才提到像 Monica 也是你们投资的公司,他们在做一些 Agent 方面的探索,是基于别的模型或者开源模型来做的,是吗?


戴雨森:因为他们不进行自己的模型训练,如果不延期的话,他们下周会发布一个很有意思的 Agent 产品(Manus 于 2025 年 3 月 6 日面世开始内测)。我们觉得,当你能使用模型,让模型去使用工具,再通过一系列巧妙的产品设计,其实能带来很不一样的体验。


Q:你刚才提到,chatbot 这种形式,其实对第一个发现 PMF 的人来说,是个「甜蜜的陷阱」。那在 Agent 这种应用形态上,会不会也有类似「陷阱」的部分呢?我是指哪些方面会让你分心,或者拖慢你去极致逼近 AGI 的脚步呢?


戴雨森:Agent 我还没想得特别清楚。毕竟它现在还处于探索阶段,目前不太好说。但我有个感觉,如果现在有个 AI 产品用户量很大,为了服务好这么多用户,可能在模型的尺寸和能力上就得做些妥协。简单举个例子,要是用户特别多、模型很大、在中国大家觉得收费也比较难,如果免费给大量用户提供一个推理成本很高的模型,那肯定不划算。这时候可能就得把模型做得更轻便一些。但更轻便的模型会不会和追求 AGI 有冲突、有阻碍呢?所以我觉得,当 DeepSeek 有这么多用户的时候,很多人讨论要不要留住这些用户,我认为其实这也是个「甜蜜的陷阱」。有几千万 DAU,而且世界各地用户的使用场景各不相同,要把他们服务好,不管是算力、产品设计还是运营方面,都得投入大量的时间和精力,我觉得这会影响探索 AGI 的资源,毕竟资源不是无限的。


Q:现在看起来,DeepSeek 好像并没有有意的去留住(用户)。


戴雨森:我认为这是正确的,这样才能跟微信合作。如果 DeepSeek 也想借助这个机会,做一款超级 App,那微信估计很难跟他们合作。


Q:其实我刚想到一个点,就是多模态。不过我觉得做 Agent 的话,更相关的是多模态的理解,而不是生成那部分。


戴雨森:我觉得多模态肯定很重要,但目前它对智能的提升没那么快。因为语言是一种非常浓缩的智能,依靠语言来提升智能是一条比较快的途径。要是语言这方面研究得差不多了,接下来就是图像。图像里的信息量很大,随便拍张照片都包含很多信息。但图像里包含的智能却不多,得看很多视频才可能从中总结出一些智能。可要是理解牛顿定律,可能几句话就能明白,但是要看多少视频才能总结出牛顿定律?所以我觉得视频更多是在具体应用方面发挥作用,在智能产生这块,目前它的信息压缩率还不够高。


Q:那一段时间为什么大家都在训多模态的模型?


戴雨森:这分成两种情况。第一种是像 Sora 走的多模态生成路线,我觉得这种路线有很明确的 PMF ,因为全世界那么多视频广告,像现在很火的「做饭大橘猫」,这类的视频做得差不多就能拿来变现,所以有这样的商业模式。像 Midjourney,它都没融资,其实就已经初步实现了 PMF。既然有 PMF,效果也挺不错,自然就有人去做。


Q:现在 Midjourney 和 Sora 的 DAU 怎么样?掉了吗?


戴雨森:Midjourney 的情况还还不错,第一批用户已经用上了,他们本来就是自带「干粮」。Sora 我觉得,像可灵、海螺这些按照它的技术方案做出来的效果也挺好,反而现在看 Sora,起了个大早,最后却没那么惊艳。不过昨天 Google 发布的 Veo 2 还挺惊艳的,至少在单镜头的情况下,它是目前最好的视频生成模型。


但现在大家普遍觉得,视频生成在提升智能方面可能不是最重要的方向,目前还是往 reasoning 的方向上「卷」。我觉得这就跟走路一样,当你眼前有一条明确的路可以走时,很多人就会先选这条路走。所以在 AI 领域,我们会不断经历探索和奔跑交替的过程。当遇到瓶颈时,你会发现之前那些看似漫无目的的分支探索,说不定能带来新的突破。所以从公司的角度来说,一方面得「直道狂奔」,就像大家在赛跑。另一方面,同时也要有这种 frontier 的探索,因为短期内不知道会发生什么。


Q:所以说还是得大公司来搞吗?在美国就是 Google,在中国就是字节跳动。


戴雨森:美国还有 OpenAI。


Q:所以创业公司根本没有资源。


戴雨森:我觉得也不能这么讲。得看现在处于哪个阶段,以及这个阶段会持续多久。如果现在处于需要创新的阶段,那创业公司有可能通过不同的 vision 去避开大厂的竞争。但如果现在就是「直道狂奔」,那肯定是谁有钱、谁有卡,谁就更容易往前冲。一直以来,创业公司的长处就是去做那些大公司没看到的事情,如果都已经「明牌」了,那肯定大公司就更有优势。


Q:我们刚才讨论 Agent 在 2025 年可能会普及的时候,其实没特别提到成本这个维度。成本降低是不是推动 Agent 发展很重要的点?


戴雨森:当然,而且我相信成本降低是一定会发生。所以我有个基础假设,先让它能做,再把它变便宜。因为成本降低肯定会实现,Agent 的能力也会不断变强,但中间遇到瓶颈、碰到卡点也是完全有可能的。所以我觉得,得先让它能用,再让它变得好用,最后变得便宜。要是连能用都做不到,那就更别提便宜了。


而且我觉得在中国和美国,Agent 落地的难度也不一样。美国现在人工成本特别高,大家总能看到那边就业市场很紧张,很多岗位都招不到人。所以对他们来讲,像 Devin 当时定价是每小时工作大概几美金,咱们可能觉得贵,但对美国公司而言,美国加州平均最低工资是 16 美金,就算去麦当劳打工一小时都得 16 美金,而一个 Agent 每小时只要 6-8 美金。第一是很便宜,第二是一年之后它能力会更强,同样的价格就变得更便宜。所以在这种习惯为企业服务付费的环境下,是合理的。


包括我自己也是 GPT Pro 每月 200 美金套餐的订阅用户,我觉得太划算了。它能让你做 100 次 Deep Research,每次 2 美金。要是让我的实习生做,首先我不可能半夜两点要求他五分钟内给我一份报告,而且他做出来的报告质量基本没 GPT Pro 好。所以我总跟实习生说,如果只是收集信息,弄出一份模棱两可的报告,可能真不如人家 2 美金一次的服务。


威廉·吉布森说过:「未来早已到来,只是尚未平均分布」。我觉得现在那些已经在使用前沿 AI 或者用得很好的人对未来的想象,和很多第一次用 Chatbot 甚至还没用过的人,分布是非常不均匀的。所以我真觉得,在文书工作方面,AI 替代人已经不是想象,而是正在发生的事。


Q:那你觉得在 RL 之后,就是解锁 Agent 之后,下一个技术范式可能是什么呢?


戴雨森:首先我觉得 RL可以走很远。其次,我认为接下来很重要的一点是发现新知识。Anthropic 的创始人 Dario 写了一篇文章叫《Machines of Loving Grace》,他提到未来 AI 要进一步就是如何发现新的科学、获取新的知识,这好像也在 OpenAI 的五级分类里。


Q:第四级。第四级是 innovator(创新者)。


戴雨森:因为大量的科学发现通常是先提出设想,再通过实验去验证。在想这方面,AI 可能已经做得很好了。但在验证环节,有时需要观察,有时要进行物理、化学或医疗实验,这方面可能会受到一些限制。如果我们能找到一种方法,大规模并行地开展实验,来验证 AI 提出的假设是否正确,包括有些像数学定理这类的,还能通过纯思考产生新知识。那从这一步来看,AI 可能就会进入一种「左脚踩右脚」的状态,它产生新知识,再用新知识来自我改进,可能形成一个自我迭代进化的过程。


但到那个时候,诞生的产品形态可能又会不一样。很多大佬都问我什么时候能发明出长生不老药?我觉得这可能是大家赚了很多钱之后的共同目标。大家可能不再只想着让 Agent 干很多活儿,而是希望能有长生不老药。而且还能解决人类面临的很多重大问题,比如癌症的治疗方法到底是什么。


Q:AI 变得更聪明之后,可能自己就能找到一些更高效利用能源的办法,甚至能解决可控核聚变这个人类 50 年都没攻克的问题,形成一个闭环。


戴雨森:就是 AI 能完成人类能完成的任务,但很快就会遇到人类解决不了的任务时候。这就跟当年李世石遇到的「第 37 手」一样,不知道这一步棋是怎么下出来的,但只要能验证这个结果,虽然不知道它是怎么产生的,但发现它确实可行、能用,那就可能带来很多新的进步。



53AI,企业落地大模型首选服务商

产品:场景落地咨询+大模型应用平台+行业解决方案

承诺:免费场景POC验证,效果验证后签署服务协议。零风险落地应用大模型,已交付160+中大型企业

联系我们

售前咨询
186 6662 7370
预约演示
185 8882 0121

微信扫码

添加专属顾问

回到顶部

加载中...

扫码咨询