微信扫码
添加专属顾问
我要投稿
深入解析AI时代下各行业面临的变革与机遇。 核心内容: 1. AI在特定领域超越人类的趋势及其影响 2. DeepSeek开源方式对大科技公司的影响 3. 腾讯接入DeepSeek背后的战略考量
上个月,真格基金管理合伙人戴雨森与「晚点」长聊了一次 AI 与 Agent。我们将这次访谈整理成完整版文字稿,分为(上)、(下)两期发布。
在《真格基金戴雨森:长聊 AI Agent,各行业都会遭遇「李世石时刻」(上)》中,雨森解析了 o1 和 R1 模型的突破,指出:「在 Agent 时代,Attention is not all you need」。2025 年,AI 在特定领域超越人类的现象将愈发普遍,这一变革将如何重塑未来,带来哪些机遇与挑战?
Q:还有一件对现在的格局影响很大的事,就是 DeepSeek 出圈,这本身影响就很大,而且它采用了非常彻底且一贯的开源方式。我觉得可以分几个层面来讲,一个是大的科技公司,首先原本闭源的大科技公司现在有很多动作,比如说腾讯、百度,都接入了 DeepSeek。而且腾讯接入了很多产品,它的 AI 主力产品元宝接入了,最大的国民级产品微信也接入了,大概有十几个产品都接了。百度是文心接入了,不过阿里和字节没有接入。
你觉得豆包什么时候会接入 DeepSeek?
戴雨森:如果豆包选择接入 DeepSeek,我会觉得很意外。因为在我看来,字节特别想探索智能前沿,很注重自己基础模型的研发。要是接入 DeepSeek,不管是对外形象还是对内士气,可能都是一个挺大的改变。
但从另一个角度说,如果豆包的用户觉得 DeepSeek 更好用,那从豆包用户价值的角度来看,这也是合理的。不过我觉得这肯定不是字节做 AI 的初衷,据我了解,他们还是想在 AI 领域实现全面领先,而且他们的人力、资源都很丰富。
Q:那腾讯呢?
戴雨森:我们这都是小道消息,毕竟作为天使投资人,也没办法了解他们决策层的想法。之前有人说腾讯做视频是后发先至,让别人先跑三年,反正微信用户这么多,始终都能调动出来。之前就听说腾讯在模型这块也是抱着后发制人的想法,因为有用户的关系、用户数据,大家又都离不开微信,等模型技术出现收敛或者成熟之后再接入。而且微信是面向用户的基础设施产品,不能做太大调整,不然会给用户带来很多影响。所以我倒是觉得腾讯接入 DeepSeek 这件事值得点赞。因为我听说 AI 搜索去年就开始推进了,但是接入 DeepSeek 这个决定肯定是高层做出来的。
我觉得这对腾讯的用户来说是好事。听说接入 DeepSeek 之后,腾讯很多产品的数据增长得很不错,可能是两位数的增长。从 DAU 的角度来看,现在很多人点微信搜索,下面就会出现下载「使用了 DeepSeek-R1 的元宝」的提示,这导量能力简直是无与伦比的。所以元宝现在在 App Store 排第二名,我觉得明天可能就第一名,这都很正常。
Q:所以你觉得这是腾讯的选择吗?就是它在自研大模型方面没那么激进,它略慢一筹,它知道会有人做出更好的模型,到时候凭借微信这个大杀器,再积极接入。你觉得这是它早就设定好的主动战略路线吗?
戴雨森:我听说这是腾讯主动选择的战略,但我同时也听说混元大模型在大量招人来扩充团队。从中国互联网过去的经验来看,大厂很少完全依靠第三方来提供关键基础设施,而不是自己去做。所以一方面,我觉得腾讯现在这个决定非常厉害,也许这会开启一个新时代。在美国有很多这样的例子,比如 Netflix 一直用亚马逊云服务(AWS),虽然亚马逊有 Prime Video,是 Netflix 的直接竞品,但 Netflix 仍然觉得 AWS 在商业和技术上是最好的选择。但在中国,以前都是有了支付宝,就得有个微信支付,大家都想有自己的一个东西。不过我觉得选择 DeepSeek 肯定是个很中立的决定,因为 DeepSeek 团队也没打算做一个超级 App,也没有想去做 to C。
Q:所以我觉得,马化腾知道梁文锋对做一个大 DAU 的产品没那么感兴趣。
戴雨森:是的,所以我觉得他们至少现在目标很明确,双方合作也有这个基础。但腾讯会不会一直不想要自己的大模型,这很难说。毕竟技术变化太快了,就像之前大家说微软就靠 OpenAI,后来微软好像也打算自己训练模型,甚至还投资了 Anthropic。所以这些情况都可能发生变化。但我觉得这里面最核心的,是谁能一直处在前沿。在过去两年多时间里,我们已经看到很多声称要做基础模型、挑战智能的,都逐渐掉队了,这也合理,毕竟做这件事需要人才、资金和大量创新。
Q:所以你刚才说,有资格做这件事的大公司只有字节跳动,有资格做这件事的创业公司,目前只有月之暗面?
戴雨森:如果说在获得风险投资(VC)之前的创业公司,原来说的 AI 六小虎,目前看下来,确实只有 Kimi 在人才、团队、资金和用户上,具备这样的能力。就连 OpenAI 最新发表的一篇论文,还同时 refer 了 R1 和 K1.5 的研究成果。包括今天中午你们来的路上,Kimi 又发布了 Moonlight 这个最新的开源小模型。我觉得能持续为技术社区做贡献,是对团队本身的能力以及方向要求挺高的事情。
Q:说到 OpenAI 的论文同时 refer 了 K1.5 和 R1,这两个成果其实是同一天发布的。其实成果刚发布后,我就去找技术社区的人聊了聊。当时大家给我的反馈是,他们对 K1.5 和 R1 的认可度差别没那么大,但最后实际产生的整个影响力差别却非常大,你怎么看待这件事?
戴雨森:我觉得开源是一个关键差异。确实 DeepSeek-R1 的一些工作意义很大,而且它开源后大家都能使用,尤其在西方引起了很大反响。
本来在过去几年,硅谷一直有人质疑预训练花这么多钱到底值不值。至少从二级市场投资人那边,大家陆续开始担心是不是钱花太多了。这时候突然出来说 500 万美金就能训练一个 o1 级别的模型,当然这是误读,论文里写得很清楚,那只是最后一次训练的结果。但就有人想搞大新闻,在美国引发了大量担忧,导致 1 月 27 号英伟达股价暴跌 16 个点。当这事情成了全球新闻,它的影响力肯定不是 Kimi 单纯发一篇论文或者一个技术创新能比的。
有个和 DeepSeek 很熟的同学跟我说,他们觉得美国的 OpenAI 或者 Anthropic,训练像 V3 这样的模型,甚至都不用花 500 万美金,人家有更大的集群和更多的训练经验。但当时很多不太懂行的人看到这个叙事,就开始拿 500 万美金和别人融的 10 亿美金作比较。但现在大家也渐渐明白不能这么比。你看英伟达的股价又快恢复了,对吧?
在训练成本上,真的行内人其实没觉得 500 万美金有多惊人,大家可能更关注像当时 MLA 那种降低推理成本的创新。另外,模型的智能提升以及模型训练与推理成本的下降,这是一直在发生的事儿。比如说 GPT-4 的 API 推出后,成本已经下降了 90% 多,今年肯定还会降 90% 多,这是必然的。芯片会更强大,大家也会找到更多降低成本的优化方法。所以我觉得现在大家首先关注的还是智能能不能提升,只要智能能提升,成本肯定会快速下降,可能每年降到原来的二十分之一甚至几十分之一。所以对降成本倒不是特别担心,至少在美国,大家相信这个曲线一定会发生。
Q:所以降成本其实在一个轨迹里的,后来 Anthropic 的创始人 Dario 不是写了一篇很长的文章吗,他前面的分析还挺充分的,就是说降本是在大行业的曲线上。
戴雨森:对,包括智能提升方面。当然篇文章后面写得有点气急败坏了,但我觉得他对前面技术的分析挺正确的。按照他的说法,他们对 Sonnet 模型的对齐工作经历了很长时间,因为他们很强调安全性之类的。确实,Sonnet 甚至都不算一个推理模型,所以他们还是挺厉害的。
听说他们马上要发布 Claude 4 了,我觉得这从一部分来说也许也是 DeepSeek 带来的好处,就像鲶鱼效应一样,模型界来了一个实力强劲又要开源的对手,大家就不得不加快步伐了,这确实是件好事。而且回过头看,DeepSeek 还有个优点,它是一个全新的应用,一上来就是 R1 和搜索的结合,是从一张白纸开始做新产品,这是个大的特点。
还有个特点,我后来才意识到,大家在训练推理模型的时候,其实都是对标数学和编程能力。我们看 DeepSeek、OpenAI 还是 Kimi 发的论文,都是用美国数学邀请赛(AIME)、数学竞赛(MATH)、代码基准测试(Code Bench)这些来做对标。但 DeepSeek 出现后,突出的反而是它的文笔。听说它第一次专门做了文笔方面的对齐工作,甚至还找了北大中文系的人来做标注。
我们一开始看到它的回答时,第一反应是觉得说得有点天马行空,动不动就扯到量子力学。其实对 OpenAI、Kimi 还有豆包来说,它们之前一直是要避免这种情况的,因为训练模型时都怕模型胡说八道。
但我觉得 DeepSeek 一方面可能是有意在文本上做了对齐,另一方面,毕竟它之前定位是 research lab,所以没太对所谓的中立性、truthfulness 进行微调,所以它发布后大家直接就用了,没想到这个特点反而成了好的特性。
我们发现很多人传播它,就是因为觉得它的回答、思考过程特别有创意,我不知道这是不是阴差阳错,但事实上也会导致它传播率更强。
Q:你跟圈子里的人聊过吗?他们觉得这是阴差阳错造成的吗?他们是有意训练的写作能力吗?
戴雨森:我听一些人说,他们可能确实在写作能力方面对模型进行了加强,但也有人觉得这或许是对齐不够充分导致的结果。所以我觉得这两种情况都有可能,我确实也没有确切的答案。
不过单从结果来看,这是出圈的一个很重要的原因。因为真正用它做数学题的人没那么多,大部分人反而是拿它来算命之类的,然后突然发现它给出的结果让人觉得很有道理。还有像 MBTI 测试这些,大家并不觉得这是一个 AGI 的前沿模型该做的事情。
Q:大家对 DeepSeek 还有一个比较好奇的点,就是它到底是怎么赚钱?刚才我们也聊到,腾讯、百度,还有很多大小的公司都接入了 DeepSeek。不过我理解,它实际上不会直接从这些接入里赚钱,对吧?
戴雨森:如果你只是用它的模型,它已经开源了。DeepSeek 目前能直接赚钱的方式就是卖 API,而且我听说它的 API 是有毛利的。因为他们在推理方面做了很多 infra 的创新,所以相比其他公司,他们 serve 自己的模型成本更低。
现在很多人都想用它的 API,可它现在面临的问题是算力不够。因为它还要进行模型训练,前阵子它好像还关掉了 API 充值入口,意思就是别给我钱了,我服务不过来。这就是商业模式的一种体现,很多人都问能不能付钱买一个稳定的版本,有点像 GPT Plus 那种订阅制。所以我一直觉得,在技术革命的早期,不要太快的用成熟期的标准去要求商业模式。应该先靠技术为用户和客户创造价值,然后再从这些价值中提取一部分作为收入。我觉得这是迟早会实现的,只是需要一些耐心。
Q:关于这个事情你是在 2024 年就有了清晰的认知?还是说在受到 DeepSeek 带来的冲击或者启示之后,才有了更清楚、更坚定的想法?
戴雨森:我觉得这也是一个不断学习的过程。我们 80 后入行的时候,移动互联网已经逐渐兴起,或者说互联网已经进入下半场了。在最早期,比如 90 年代的时候,我那时候也是互联网用户,但当时根本没考虑过商业模式的问题。我觉得应该经常以史为鉴,想想为什么很多早期的互联网公司,都是凭借当时很强的技术做起来的。
其实复盘一下 Google 遇到的第一个问题,它用 PageRank 这项新技术打造出了体验好 10 倍的搜索引擎,用户特别喜欢,还自发传播。但那个时候它其实不知道怎么赚钱,因为一开始谷歌的搜索引擎是没有广告的,界面很清爽。1998 年上线后,2002 年《纽约时报》有篇文章就说「Google最难搜索的就是它自己的商业模式」,批评它没有自己的商业模式。但后来大家也知道了,2002 年它逐渐找到了 AdWords 和 AdSense 这两种商业模式,2004 年上市后成了现在最好的「印钞机」。这是个很好的例子,一开始你问 Google 商业模式是什么,它其实也不知道。但它首先是有技术突破,凭借技术打造出好产品,然后再把产品的价值变现。
Q:所有的技术突破都会有这样水到渠成的过程吗?还是说我们存在幸存者偏差,只是看到了那些后来取得巨大商业成就的技术突破?
戴雨森:当然,不可能所有的技术突破都能赚钱。不过我觉得,得看技术突破处于哪个发展周期。我还是那个观点,现在是一个技术变化斜率很陡峭的时候,那这个时候,要是逼着现有的技术去变现,就好比让一个天资聪颖的高中生去赚钱,他可能只能去做些搬砖之类的活,赚不了什么大钱。但要是多培养他,等他成为博士生,那就能赚大钱。所以我觉得,如果技术发展已经到了平缓期,比如移动互联网,五年前的技术和现在没太大区别的时候,那才是商业模式百花齐放的时候。
我再举个例子,不只是 Google,Facebook 刚出现的时候,提出了一个非常前沿的产品,引发了「病毒式」传播。但那时候大家也不知道 Facebook 怎么赚钱。它尝试过放横幅广告,尝试过本地广告,后来还做过游戏中的广告,可这些都没赚到什么钱。直到2012年,它把 news feed 从时间排序(就像微信那样的排序方式)改成了推荐排序,形成了所谓的信息流推荐模式。只有做成了推荐信息流排序,才能插入广告。所以它在 2012 年推出了信息流广告(news feed ads),并且同年上市。当然现在信息流广告也是超级「印钞机」,字节跳动的核心商业模式。但 Facebook 是 2005 年上线的,信息流在 2007 年上线,推荐信息流是在 2012 年上线,同时找到了真正的商业模式,这中间花了 6 到 8 年的时间。那时候 Facebook 一直是用户很喜欢、但商业模式不清晰的公司,所以伟大的公司往往都经历过这样的阶段。
Q:你觉得字节跳动会开源吗?
戴雨森:首先,开源是不是每个人都必须做的事?第一,得处于领先地位,开源才有价值。要是开源一个不怎么样的东西,只是为了开源而开源,那没什么意义;第二,我觉得开源稍微弱一点的形式就是免费。免费加领先,我觉得这就很厉害了。
是不是一定要开源?我觉得这次 DeepSeek 有个「甜头」——它开源后引起了西方的高度关注。在美国引发大新闻后,回到国内大家就更觉得它厉害了,让美国人「破防」了。当然,开源也有像和微信合作这样的形式,但我在想这不仅仅是开源的问题,而是公司得坚持做这件事。比如说,假设现在豆包开源,微信会接入吗?我估计不会。所以这不是开不开源的简单问题。假设豆包现在和 DeepSeek 一样厉害然后开源了,我估计微信也不会接入,阿里的千问估计也不会。这不是说它们能力不行,而是从阿里和字节的立场来看是这样。所以我觉得梁文锋他们厉害的地方不只是开源,而是他们坚持开源,而且他们的市场定位是一个不会让大家感到威胁的定位。
Q:对,坚持开源,而且保持中立,没有接受某个大厂特别多的投资。
最近还有个变化,就是 OpenAI 也在考虑开源。阿尔特曼(Altman)发了一条推特,给大家两个选项:一个是可以开源 o3 mini,还有一个是可以开源 phone size 的 model,就是一个适用于手机端的模型。你更期待它开源哪个呢?
戴雨森:当然,我觉得开源哪个都很好,但我肯定对 o3 mini 更感兴趣。因为我觉得目前手机端的模型用途可能还不是那么大,现在大家更需要在智能前沿取得突破。o3 mini 是一个很强大的模型,在经过较长的推理时间,也就是现在 GPT 里的 o3 mini pro、o3 mini high 模式下,它的表现非常好。如果这样级别的模型能够开源,大家能知道它是怎么做出来的以及它的特点,我觉得对大家会有非常大的价值。而且听说这个模型的规模也不大,所以这可能对大家在模型训练和应用方面会有很多借鉴意义。
Q:你听说它有多大?
戴雨森:比较可靠的消息来源,听说它每次激活的规模是 3.7B 的大小,这确实让我有点震惊,感觉确实有点太小了。但这个尺寸意味着,他们确实能把一个很大的 o3(o3 应该是挺大的),变成一个很小的 o3 mini,然后让 o3 mini 经过更多的思考时间,从而得到很好的结果,这确实是一项很厉害的工作。
Q:他们之前其实分享过自己不开源的顾虑,他们认为开源会削弱竞争优势,比如会给 Google 可乘之机。
戴雨森:所以我觉得这是梁文锋伟大的点,他确实把很多技术秘密分享给大家,让大家都能变得更好。但从纯商业公司的角度来看,确实会有很多担心。毕竟除了刚刚说的问题,OpenAI 还担心强大的 AI 会被坏人利用,这可能也是一个很合理的担忧。
Q:你觉得 DeepSeek 对那些本来就在开源生态里想要主导的公司,比如 Meta 和阿里这样一直都在开源的公司,会有什么影响呢?
戴雨森:我觉得肯定是一种激励。大家发现来了一个更「卷」的对手,原来开源社区,开玩笑地说有点像「赛博佛祖」,有点做慈善的感觉。不管是阿里还是 Meta,都是大公司拿出算力给大家用,带动整个行业发展。但现在来了一个进步更快、更开放的 DeepSeek,这肯定对大家来说既是压力也是激励。但确实,我觉得 DeepSeek 的中立性是一个比较独特的优势,腾讯也可以用、千问也可以用,这不仅仅是能力的问题,是他的屁股坐在哪儿的问题。
Q:苹果最近不是也和 DeepSeek 有过沟通合作之类的吗,不过最后它选择了阿里。
戴雨森:苹果和很多公司都聊过,也和 Kimi 聊过。我觉得从苹果的角度来看,选择阿里很好理解。它肯定要选一个服务稳定,能很好应对大规模用户量,不管是 infrastructure、服务还是技术经验等方面都很出色的合作伙伴。
Q:其实这一轮阿里还是比较开放的。
戴雨森:千问和 Llama 挺兼容的,而且它的产品模型不错,更新也很频繁,所以其实很多开发者都在用千问。说实话,DeepSeek 的 R1 在使用的时候,因为存在很多「幻觉」,所以如果用它来做应用,可能不一定是最好的选择。
Q:在 DeepSeek 全民爆火之前,在海外技术圈,我觉得千问和 DeepSeek 的影响力是比较相当的,因为它们俩都是开源系列的。
戴雨森:确实,复盘一下就会发现,不管 Kimi 的 benchmark 做得多好,如果对别人不开放,不能开源使用,也不提供海外应用服务,那在海外确实就没有认知度。
Q:你们之前是怎么讨论的,Kimi 为什么不开源?
戴雨森:我觉得即便到现在,开源也不是一件必须要做的事情。就像我刚才说的,开源只是公司在某些情况下的一种选择。比如说,在没有保密竞争压力、没有融资压力的情况下才会考虑开源,而且我们现在看到的是事后的结果,因为开源再加上一些偶然的机会才会有现在的情况,所以我觉得开源不是必备选项。当然,选择开源的人很厉害,非常值得尊敬。但对于一家商业公司来说,核心还是在于能不能创造用户价值,并最终将用户价值转化为商业价值,所以我觉得开源不是必经之路,只是一条很有意思、很创新的路。
Q:但今天所有的探索 AGI 的公司都不会以用户价值作为核心的。
戴雨森:很多还是以技术价值为主。我只是说在技术增长期,只有技术价值提升了才能带来用户价值。所以我觉得在技术前沿进行探索是非常关键的。大模型出现之后,可能涌现出了一批所谓比较务实的投资人或创业者,他们想着用现有的技术去赚钱。但我觉得 Kimi 肯定属于另外一类,它是要推动技术前沿的提升,这又回到我们一开始说的,打造出令人惊叹、如魔法般的产品体验,最终获得商业价值。
其实 Kimi 在 2023 年火起来,它火一个很重要的原因是,它是第一个把 chat、搜索和长文本结合起来的产品。大当时 ChatGPT 是不能搜索的,而且 ChatGPT 对于长文本、多文本、多文件的处理也不是很好。所以 Kimi 在前两三年,就是凭借着长文本处理的技术理念,以及将搜索和聊天相结合,带来了不一样的用户体验,从而成功出圈的例子。
Q:当年选择做长文本是非共识吗?做这个决策很难吗?
戴雨森:其实当时长文本肯定是技术选择中的一个选项,但要不要把它放在最重要的位置去做,我觉得这并没有达成共识。当时有个不知道真假的段子,据说百度在 Kimi 火了之后,就说为什么 Kimi 做了长文本他们却没做,好像是说长文本的优先级没排在他们第一批要做的事情里。因为当时还有很多其他优先级更高的事情可以做,比如也有很多人做 CharacterAI,做那种情商方向的对齐。但 Kimi 坚定地选择了长文本,并且把它做到了极致。因为长文本能解锁两个关键场景,一个是处理多个文件,第二个就是搜索,比如看 100 个网页然后进行总结,这两个场景没有长文本是做不出来的。
尤其在当时,Kimi 刚成立,还没融到那么多钱。团队也是年轻人、小团队,资源受限,必须专注在一件事情上,选择一个正确的方向。其实 DeepSeek 现在火的很多因素,放到 2023 年的 Kimi 身上也是成立的。当资源有限的时候,就要在一个关键的点上实现突破,给用户带来那种非常惊艳的体验,这样才能出圈。所以我总结了一下,发现有很多相似的地方,这不是往自己脸上贴金,我是真觉得它们有一些相似之处。
Q:那长文本对 Kimi 现在做的事情有帮助吗?
戴雨森:比如说同样做 retrieval,Kimi 在 truthfulness、准确度方面其实做得更好。当然,普通用户可能不会去这么对比。说实话,现在很多用 DeepSeek 的用户,对于产生的「幻觉」是没感觉的,但说不定你用它写个报告,回头就被坑了。我昨天就遇到了这种情况,在一个群里,群里的人还都挺有水平的,有人发了篇文章,我一看,里面 DeepSeek 味道怎么那么浓。
Q:你觉得 DeepSeek 大火出圈之后,对之前这段时间经常被拿来和它比较的大模型「六小虎」,会有什么直接冲击?
戴雨森:说实话,我觉得它确实起到了清场的作用。在 R1 出圈之前,「六小虎」里就有几家已经不做自己的技术模型训练,也没打算冲击 SOTA 了。我觉得 R1 出来之后,也让大家意识到,如果没有做到 SOTA 的可能的话,确实还不如去做垂直领域或者应用开发。
Q:他们放弃是因为什么?
戴雨森:有资金的原因,也有团队、自身定位的原因。我们作为 Kimi 的天使投资人,实际来讲,就拿 K1.5 这个模型的表现,以及他们接下来要发布的模型来说,在我们刚才提到的 MATH、coding 方面还会有进一步的表现。从学术贡献上看,至少从 reasoning 方面,K1.5 提出的 long-to-short 等技术分享 得到的评价也挺好的。而且今天发布的 Moonlight,还有前两天发布的 MoBA,这也说明 Kimi 团队有能力持续和技术同行进行交流输出。
同时,Kimi 现在的用户量已经达到了千万 DAU 的级别,而且还在持续增长。说实话,不少人在用过 DeepSeek 和 Kimi 之后,在很多场景下还是更喜欢 Kimi。比如说 Kimi 的「幻觉」更少,在一些工作场景中表现更好。在一些多模态推理方面,像拍照搜题这些场景,目前 DeepSeek 还没做。所以,可能我这话有点私心,但我确实觉得从团队资金、技术能力、用户产品这些角度来看,Kimi 是现在「六小虎」里唯一有能力持续参与 SOTA 模型竞争的。当然,这条路很难走,需要钱、需要人等各种条件,但我觉得至少值得一试。
Q:Kimi 接下来会更专注吗?会砍掉一些东西吗?
戴雨森:他们已经砍掉了很多东西,比如海外业务,他们现在就是要继续冲击 SOTA。
Q:他们正式不做视频生成了吗?
戴雨森:至少从目前来看,我觉得有所不为很重要。
Q:「六小虎」里的多数(公司)在 DeepSeek 出来之前就已经放弃了,这在你的预期之中吗?
戴雨森:其实在 2024 年年中我们就感觉会是这样的结果。因为那个时候就有几家很明显,不管是从意愿还是资源方面,都很难再继续下去了。我觉得 Kimi 有一点挺好的,就是它的团队非常稳定。这和他们团队的构成有关,联合创始人之间都有长期合作。可以看现在各家模型公司人员变动都挺大的,其实创业就像走平衡木,走着走着同行的人就越来越少,很多时候能一直留在牌桌上就已经很厉害了。
Q:刚才我们主要聊的是 DeepSeek 对模型公司的影响,包括大公司,不管是开源的还是闭源的,还有一些创业公司。接下来可以聊聊其它生态里的公司,比如说,在 DeepSeek 带来的更开源的风潮里面,会产生什么样影响?我想到一类公司,就是 AI 云平台。按 DeepSeek 的预告,接下来的开源周它是要开源 infrastructure 层的一些推理优化技术,那这对硅基流动、无问芯穹这类公司在创业方面可能会有什么影响呢?
戴雨森:我们是无问芯穹的天使投资人,他们的业务量增长得很厉害,收到了很多需求。尤其是各地国资、政府都在拼命想部署 DeepSeek,这方面的需求暴涨。
他们做了很多创新,包括在华为的卡上做推理也很火,很多人都想用。我觉得开源模型的「火」,确实给 AI Infra 公司带来了很好的机会。原来这些公司要 serve 什么模型?如果都是豆包、Kimi 这类闭源、私有模型,那它们确实发挥不了什么作用,因为字节跳动自己会做 serve。但从长远来看,还得看它们能不能持续服务好客户。毕竟公有云公司,像腾讯云、阿里云、火山引擎,确实资金充足,Infra 能力、资源包括客户服务能力也更好,所以对于客户来说,他们肯定也不是做慈善,谁能服务得好,又价廉物美,他们就选谁。所以对创业公司来说,还是有很多挑战的。
而且 DeepSeek 要开源这些「黑科技」,这意味着它在服务方面其实也有很多优势,同样的服务它成本可能比别人低。因为短期内因为算力需求激增这肯定谁也没想到,它自己扛不住,让别人来承担这也很正常。但如果进入稳定状态,这些创业公司面对大的公有云公司和 DeepSeek 第一方服务,是否还有优势,这还得再观察。但总体来说,肯定是创造了很多机会。
Q:其实 AI 云平台夹在云和模型中间对吧?它有可能受到两边的挤压,但也可能因为生态的变化获得一些机会。
戴雨森:对,如果开源之后中间这一层的选择变多了,比如有不同的框架、不同的模型可供选择,那中间这一块就会变得越来越好。但如果最后像操作系统那样,收敛到只剩下像 iOS 或者安卓这样的少数选择,那可能最后还是由系统提供商来提供。
Q:你觉得它对广大只做应用的公司会有什么影响?
戴雨森:我觉得肯定还是正面的。就是多了一个更好的、开源的、还能自己微调的模型可以用。在这个过程中,要是想在模型的主航道上做 office 相关的事情,那还是挺难的。但要是做的事情是丰富模型生态,那就不一样了。我一直打比方,在技术革命的早期,就相当于黑莓时代。因为那个时候黑莓技术能力有限,所以你有的 PMF 是很少的。黑莓时代主要就是发邮件、发信息。就算张一鸣回到那个时代想做抖音,也做不出来,因为黑莓不具备那样的条件。但后来移动互联网为什么能蓬勃发展?首先是因为有了 iPhone,它实力够强,解锁了很多新场景。它有好的摄像头、好的屏幕、好的网络、好的芯片,所以才能解锁短视频、移动电商、社交网络这些场景。
iPhone 之后就是安卓,安卓让市场变得更开放,小米、OPPO、vivo 等更多手机厂商加入进来,进一步把智能手机普及开了。比如说 Sonnet 和 4o、o1,有点像 iPhone 时刻,就是闭源的技术进步让很多人能在它上面构建应用。而 DeepSeek 可能就是安卓时刻,它从闭源变成开源,同时实力也足够强,让大家做应用有了更多选择。所以技术进步一方面能带来更好的产品体验,导致出现「杀手应用」;另一方面也能让生态变得更繁荣。原来只能做有限的几件事,有了 iPhone 和安卓之后,才能做抖音。
Q:然后我还想聊聊 o1 和 R1 对大家都很关注的基础设施算力需求的影响。其实 DeepSeek R1 有段时间特别火,这和刚才我们说的英伟达股价大跌有关系。有一种观点觉得,是不是因为它训练成本低,所以会减少对算力的需求。包括我看你也发了一些朋友圈,很多人对此也有不同看法。
戴雨森:我觉得算力需求有不同的结构。原来就是训练和推理,在 2023 年到 2024 年的军备竞赛阶段,大家简单总结成一句话叫「大力出奇迹」,好像觉得只要买足够多的卡,就能得到更好的结果。当然,那个时候预训练还没撞墙,或者大家还没意识到撞墙的时候,这么说也能成立。
但现在我们发现,pre-training 短期大量投入,确实边际效益是有限的。比如 Grok 3 是用 20 万张卡训的,虽然有进展,但边际效益在递减。所以不能说「大力出奇迹」是错的,只是它产生奇迹的边际效益在递减。但我认为会发生的事情是,由于模型的能力已经达到了做 Agent 产品的临界点,并且还在不断突破。所以当 Agent 产品形态能落地之后,它使用的 token、inference 的算力会大幅增加。如果只是做 chatbot ,你和 ChatGPT、Kimi、豆包聊天,没那么多能聊的,花不了多少 token。当它能帮你做更多、更复杂的事情,需要更多工具、思考时,inference 算力的需求可能不是提高 10 倍,而是 100 倍、1000 倍地增长。这种情况之前没法发生,因为技术没达到那个程度。但现在我觉得技术到了这个转折点,推理需求可能会大幅提高。
Q:百倍千倍的推理算力需求增长,会在 2025 年就出现吗?
戴雨森:首先,从技术发展历史的角度来看,是 2025 年、2026 年还是 2027 年发生这件事,其实一点都不重要。就像自动驾驶,最终它能发生才是最重要的,具体在哪一年实现,其实没那么重要。
但我觉得现在 Agent 产品,至少我能感觉到它已经快要出圈了。比如说 Deep Research,它需要的 token 肯定多很多。这也就是为什么阿尔特曼说 GPT Pro 虽然每月收费两百美金,但还是在亏钱,因为那个时候 inference 的需求增加了很多。不过我觉得这里面有两个情况,一是 pre-training、post training inference 花的占比会发生变化;二是这确实会对英伟达产生格局上的影响。在 2025 年 2 月,英伟达在推理和训练方面,肯定还是性能最强且效率最高的选择。不过我们也看到,当 R1 火了之后,国产芯片就开始针对 R1 进行优化了,这种定点优化其实效果更好。
Q:其实已经在用昇腾了。
戴雨森:他们已经看到昇腾的 910B 了。
Q:而且即便用英伟达的产品,也可以用 FP4 推理技术的优化。
戴雨森:是的,我觉得一直以来都存在这种情况,当技术还没有收敛时候,GPU 具备很强的通用性。或者为什么会有英伟达?最早都是 CPU,它是最通用的。后来大家要玩游戏,游戏有很具体的需求,所以就做了 GPU,专门用来加速游戏,当然后来 GPU 可以做 AI。目前,GPU 对于 AI 的通用训练和推理来说,还是最通用的选择。但要是只服务于某一个具体的模型,有两种做法。一种是像昇腾这样,可以专门做优化;另一种做 Eclipse,像博通、Marvell 那样去做。
Q:或者像谷歌做 TPU 那样,针对自身的需求去优化。
戴雨森:其实这也是一种专用化。一旦架构稳定下来,在芯片领域通常就能通过专用化来实现更高的效率。所以这里就涉及到架构到底会不会固化下来,我觉得这也是大家激烈讨论的点。目前来看,O1、O 系列这条路能走得很远,那可能 ASIC 就会逐渐 work。但从另一个角度,假设明年、后年架构基础发生变化,Transformer 都不 work 了,换成其他架构,那做 ASIC 可能就白做了,还得依靠 GPU,所以这里面有很多不确定因素。不过英伟达确实存在一个问题,就是它现在市场份额太高了,很难 go up。
Q:对,它好像已经到顶点了。
戴雨森:对,它的市场占有率都 90% 多了,所以有往下走。这种走下坡路的可能性让很多人很担忧。现在一方面大家对未来算力需求的预期比较高,另一方面对英伟达的市场格局以及由此带来的毛利率预期也比较高。一旦市场格局出问题,它的毛利率可能也会受影响,这是大家比较担心的地方。但要说现在大家都在做什么,包括 DeepSeek 最想获得的是什么,肯定还是英伟达的产品,能买多少就买多少,想尽办法去买。
Q:其实这一波最稳的还是博通。
戴雨森:博通或 Marvell,这两个表现都挺突出的。但要是说 ASIC,第一,基本上得到 2027 年才能用得上;第二,这里面还存在一些情况,比如价格变化可能会导致 ASIC 这条路不 work。并且要做出 ASIC 并投入使用,在产能、良品率、效率等方面也有很多问题,不是说想设计就能做出来的,所以这里面有很多不确定因素。
当然,英伟达也遇到了一些问题,比如液冷问题、整体良品率问题等。反正我认为 Agent 产品的落地,对算力来说肯定是整体利好的,大家现在也都听到了这个词杰文斯悖论。但英伟达市场格局是否会变化,只能说出现了一些新的可能性。所以对于炒股票的人来讲,Deepseek 出来后的第一反应可能是看到相关新闻先抛售再说,现在好像问题不大,再加回来。
Q:我们刚才聊了很多对未来的展望,有些可能今年就会出现,有些可能要等很久之后。总结来说,你觉得 2025 年我们大概率会看到些什么呢?
戴雨森:我觉得我们会看到更多的「李世石时刻」,就是在一些任务上,AI 超过 99% 的人类,其实这种情况已经在陆续发生了。比如说写代码,现在 AI 写代码的能力应该比 99% 的人类都要强。
Q:是超过 99% 的程序员,还是 99% 的人类?
戴雨森:我现在说的是人类,但我觉得超过 99% 的程序员可能也快了。因为在 Codeforces 竞赛级别的编程中,AI 已经超过 99% 的程序员了。不过竞赛级编程和日常编程产出不太一样,日常编程可能需要更多的上下文信息,还要读取各种代码库。但我觉得类似这样 AI 在能力上打败人类,或者打败精英人类的情况会越来越多,我们会看到更多让人惊叹的相关新闻。另外,我觉得会有更多以更方便、更实用的形式呈现的 Agent 产品出现,成为现象级产品。可能不会有几亿人使用,但我觉得能进一步破圈,达到像 Cursor 那样的破圈程度。
Q:Cursor 现在的日活是多少啊?
戴雨森:日活我不太清楚,但它的年度经常性收入(ARR)大概有 1 亿美金左右。日活很难衡量,所以别用日活来衡量 AI 产品。用户愿意为产品提供的价值付多少钱,这可能才是关键。我觉得模型的发展速度会加快,开源和经验分享也会增多,这还挺有意思的。其实在中国,我们现在刚有了在美国经历 ChatGPT 爆火时的那种感觉,因为现在各地的政府都开始用 DeepSeek 了,大家也都在接入 DeepSeek,我觉得这对于提升大家对 AI 的认知度很重要。大家会意识到,原来 AI 这么厉害。之前 Kimi、豆包等模型加起来可能也就几千万的 DAU,月活可能都不到 2 亿。我觉得这也就是让大概十分之一的人用上了比较先进的 AI 模型。但要是能让百分之几十的人都试用过比较先进的模型,感受到 AI 的强大,那不管是从创业者、用户、新产品的角度,还是从投入资源和资金的角度来看,我觉得整个行业都会迎来一场像寒武纪生物大爆发那样的生态繁荣。
Q:现在是 2025 年,你也说过,2025 年在有些领域可能会出现「李世石时刻」,也就是 AI 超过 99% 的人类,甚至是精英人类。我感觉 DeepSeek 这个事儿,让整个行业发展的速度变得更快了。那你觉得,如果我们更快地实现 AGI,或者在更多领域解锁「李世石时刻」,之后会怎么样呢?我现在都有点想象不出会发生什么变化,比如人要去做什么,社会结构会怎么改变。
戴雨森:我觉得我们正处在人类历史上一个非常有意思的时期。其实指数增长是世界发展的常态,因为我们每年都是在前一年的基础上增长。但能亲眼见证并亲身感受指数增长,是很罕见的事情。
Q:你说的指数增长是指什么?是经济总量,还是其他方面?
戴雨森:GDP 每年增长 2%、3%,这不就是指数增长吗。不过一般来说,这种指数增长得用一生去体会。比如说,今年和明年比可能变化不大。但在 AI 上,具体讲,从 o1、o1 Pro 再到 Deep Research,我在短短几个月内就明显感觉到了它的指数级增长,这种体验很特别。而且我觉得这会让我们对未来的预期发生很大的改变。
所以现在很多人都在问,AGI 是什么,实现 AGI 之后会怎样。我个人觉得,AGI 确实会对生产力、社会,甚至政治、文化都产生很大的影响。但具体它到来之后会有什么影响,我觉得我们得做好应对冲击的准备。因为像安全问题,以及新技术出现后如何解决社会福利问题,我觉得只有当这些情况真正发生时,大家才会真正重视起来。
Q:而且这个能力掌握在谁手里,其实是影响世界格局的。
戴雨森:所以加速主义就认为 AI 肯定会发展,坏人会用 AI 去做坏事儿,所以好人应该更快的发展 AI。
Q:比如会出现搞金融诈骗的情况,包括像韩国之前出现的那种 Deepfake AI 色情。
戴雨森:所以就得有更强大的手段去侦查 Deepfake,因为人已经没精力去甄别了,我觉得这肯定会带来巨大的影响。其实我在想,一方面很多人可能会失业,我觉得这种情况大概率会发生。现在大家对通 AGI 的定义就是它能替代多少人的工作,如果 AGI 的作用就是替代人的工作,那实现了 AGI,不就等价于很多人会失业吗?当然,这是从社会层面来说。也有人说那个时候物质会极大丰富,每个人都发钱了,但我也不知道到底会怎样,我觉得肯定会有很多冲击。
但从另一个角度看,我们人眼中的真实会发生巨大变化,不管是视频生成、图片生成还是内容生成。我是 1986 年的,我出生的时候,一个人能接触到的信息全都是经过权威认证的,要么是书、要么是报纸,不然根本没办法出版传播。后来互联网的巨大意义在于,能让普通人写的东西被大家看到,现在 AI 变成了你想要什么就能生成什么。其实我发现,包括我自己在内,很多时候都没有判断力了,没办法甄别信息的真假。所以在这样的环境里,如何进一步适应,建立起自己的认知体系,我觉得这是非常重要的问题。
Q:有一个网络流行语,现在越来越有深意了,它大概意思是「视频没法 P,所以是真的」。
戴雨森:对,现在视频都能生成了。我觉得这对我们的社交以及认知世界的方式都会产生很大的影响。我发现科技发展有个规律,第一波往往是最厉害的人创造出最强大的技术,第二波就是用强大的技术为最厉害的人打造最强的工具。就拿计算机来说,一开始它是为了解决核爆炸问题或者破译密码问题而出现的。这种为「超人」设计的超级工具,会逐渐走向大众化,普及到普通人,然后变得小型化进入家庭,再发展到移动化,到处都存在。
我们现在还处于最厉害的一群人给精英人群打造超级工具的阶段。但我觉得这个东西最终肯定会惠及大众。当初我们投资王慧文的光年之外,口号就是「加速 AGI 普惠人类」,我觉得普惠大众肯定是最终的结果。不过中间肯定会像威廉・吉布森说的「未来已来,但分布不均」,现在确实分布得不均匀。所以我觉得不管是 DeepSeek 这种开源也好,还是像 Kimi、豆包这种大用户的产品也好,其实都在加速未来更加均衡地分布,这都具有重要的意义。我觉得新技术最终是要惠及大众、全人类的,这样才有真正的价值,而不是只掌握在少数有钱人或者少数公司手里。我觉得这整体来说是我希望看到的结果。
Q:我比较好奇,你个人在为可能更快到来的 AGI 做一些什么准备?
戴雨森:锻炼身体。我觉得在投资领域优秀的创业团队其实很重要。有了更多的技术创新之后,创业者就显得尤为重要。当然,梁文锋一开始也是创业者,只不过他太厉害了,自己炒股、自己做量化就能赚到钱。还有很多可能成为梁文锋那样的人,他们或许缺少启动资金。所以我觉得 VC 在这个时候很重要,尤其是早期投资。因为从理论上来说,早期投资承担的风险最大。要是很多事情都已经确定了,那也就不需要我们了。但我觉得现在又回到了一个充满不确定性的时期,不是每个人都能像梁文锋那样,自带 100 亿干粮。
Q:你觉得下一代应该如何接受教育?他们应该学习什么?我觉得这是很多人都在思考的问题。
戴雨森:我认为最重要的是提出问题的能力。比如说,我经常会遇到这样的情况:面对一个能力很强的 deep research,我应该问他什么?我应该如何指挥他?作为 AI 公司的老板,我每天要考虑让大家做什么,今年的方向是什么,这个月的重点是什么。这个过程其实需要大量思考,因为事情不会自己推进,我们需要主动决定方向。但目前的教育体系更多是教授学生「会做什么」,让他们掌握技能。
然而,很多技能现在已经可以由 AI 代替,或者可以通过指挥 AI 来完成。那么,在这种情况下,我们自己应该做什么?这成为一个非常重要的问题。其次,我们当前的许多工作本质上是一种「缝合」工作——将各类信息复制、拼接、整理,最后形成一份报告。但 AI 在这方面已经比人类做得更好。因此,我们要思考自己的内容是否能为人类或整体知识体系增添独特价值。
就像我们现在的对话,可能也有「缝合」的成分,但至少可以诞生一些独特的数据。那么,我们的工作能否创造出 AI 训练数据中不存在的独特信息?还是仅仅在重复 AI 已有的内容?这一点对教育和工作的本质都会产生重大影响。
Q:马斯克那句话我觉得特别有意思,简而言之就是:「我想在火星上死去,但不是在着陆时。」
戴雨森:对,关键是别撞死。
Q:我有一个比较个人化的问题。你最近在做投资,同时也即将学习 HI(Human Intelligence),还在研究二级市场。面对这么多领域,你如何保持高效的学习速度?
戴雨森:也没有特别快,否则我早就更深入地研究 DeepSeek 了(笑)。其实在 V3 发布的第二天,也就是 12 月 27 号,我就在家里组织了一场讨论会,邀请了十几个朋友,包括字节和各个 AI 研究机构的朋友,一起探讨 AI 领域的最新进展。当时正好有 DeepSeek V3 的发布,非常振奋人心。这说明我们的学习能力还是不错的。
比如 MLA 发布的第二天,我就觉得它非常厉害。当时我在美国,和朋友们讨论这个技术。我认为兴趣非常重要——只有真正感兴趣,学习才会更有效。我自己也比较「多事」,比如 ChatGPT 发布当天,我就用到了凌晨四点,觉得这个技术完全不一样。这种习惯可能源于我 1998 年开始上网,1999 年第一次使用 Google。当时的搜索引擎很弱,几乎搜不到有价值的信息,而 Google 的搜索结果完全不同,给我带来了极大的冲击。
类似的经历还有很多,比如校内网上线的第二天我就开始使用,后来对整个互联网创业的发展有了深刻的印象。ChatGPT 发布后,我第一时间体验,并立刻组织研究小组。Devin 也是如此,我觉得它很有潜力,于是马上组织讨论。
回顾历史,互联网的第一批创业者往往是最早上网的人,移动互联网的先行者通常是最早买 iPhone 的人,甚至最早赚钱的特斯拉投资者,也是因为他们最早购买了特斯拉。因此,现在愿意花一点小钱甚至不花钱去体验未来,仍然非常重要。比如 Devin 订阅费是 500 美金一个月,乍一看不便宜,但对于朋友圈的投资人来说,可能只是喝一瓶茅台的价格,而这点成本可以帮助我们提前看到未来的趋势。
Q:确实。
戴雨森:所以最重要的是多动手实践,主动去阅读 paper,关注顶尖研究者的工作。比如 OpenAI、DeepSeek 以及其他前沿机构,他们的高质量信息大多是免费公开的,值得学习。去年年初,二级市场很多人认为 AI 需求会遇到瓶颈,2025 年行业可能会下滑。但我从行业内部的观察来看,完全不是这样。AI 训练仍然在加速,军备竞赛的趋势明显,各家公司都在大规模采购算力。我在去年下半年开始投资 ASIC,当时的逻辑是,尽管 ASIC 未来可能很重要,但短期兑现度还不高。类似的故事在行业内屡见不鲜,比如早年 AMD 被认为会挑战英伟达,如今 ASIC 也被认为可能威胁英伟达。
Q:ASIC 其实已经冲击了英伟达好几次,当年 5G 时代的一些公司就是 AC 公司的代表。
戴雨森:是的,每次看似会有冲击,但最终影响有限。不过二级市场往往是「先炒再说」,兑现情况并不一定重要。二级市场的一个有趣之处在于,它可以作为一种验证认知的工具。比如,我很早就知道 DeepSeek 很强,但他们并不需要外部投资。这种情况下,二级市场就提供了一个「投注」的机会,就像训练模型需要 reward signal 一样,市场的反馈可以验证你的思考是否正确。因此,我认为二级市场真正的价值不是赚钱,而是提供一个不断检验和修正认知的机制。
Q:那你现在如何利用 AI 工具进行投资决策?
戴雨森:Deep Research 给了我一个很具体的案例。前阵子特朗普每周五都会发布新的加关税政策,当时我正在研究美国国债的交易走势。我向 Deep Research 提问:「2018 年特朗普宣布加关税时,美国长期国债利率的反应是怎样的?」
当时我有两种推测:一是加关税会推高通胀,长期通胀预期上升,导致国债利率上涨;二是市场避险情绪增强,投资者会卖出股票,转而买入国债,导致国债利率下跌。Deep Research 在 5 分钟内就给出了分析,指出 2018 年的历史数据表明,每次特朗普宣布关税政策,美国国债利率都会下降,市场倾向于避险。这一分析帮助我做出了买入美国国债的决策,最终证明是正确的。
Q:这确实是 AI 赋能决策的好例子。
戴雨森:是的,我问它一个问题,五分钟就能得到答案。如果换作是我的助理,或者一些二级市场经验丰富的朋友,他们可能要到第二天才能告诉我「会涨」之类的。在金融市场,快速响应真的很重要。
Q:你刚刚提到学习,似乎你对 AI Agent 有很强的兴趣?
戴雨森:对,我特别喜欢读书,这也是为什么我经常讲 Agent。我确实觉得它们极大地改变了我的生活。我有时读书会遇到一个很有趣的观点,想要深入研究,但如果自己查资料,可能会花很多时间,甚至影响读书的节奏。
我举个例子,Reid Hoffman 的新书《Super Agency》里提到了美国 GPS 发展的历史。美国最初担心 GPS 精度太高会影响国家安全,所以人为地加入了 100 倍误差,导致它只能用于非常粗放的应用。但后来美国发现这样反而限制了 GPS 的商业价值,于是克林顿政府最终取消了这个限制,使 GPS 彻底开放,也催生了美团外卖、滴滴打车等一系列应用。
这个例子让我想到 AI 技术的发展:到底是要以国家安全为由限制它,还是选择开放、共赢,构建生态?于是,我让 Deep Research 帮我研究 2018 年 GPS 开放政策的背景,并与当前 LLM 政策做对比分析。这种情况下,如果我自己查资料,可能一个小时就过去了,而我只需要让 Deep Research 先做着,我可以继续读书。等它整理完,我再看总结。
最终,我发现 GPS 开放的关键在于,美国开发了定向屏蔽 GPS 信号的技术,这样在战争时期可以局部关闭 GPS,而平时可以开放使用。这也解答了一个关键问题:美国政府如何在开放 GPS 的同时,解决国家安全的顾虑?这个过程如果让我自己研究,可能要花很久,但现在 Deep Research 就能帮我完成。这也是为什么我愿意为它付费——从时间价值的角度来看,绝对是划算的。
Q:200 美元一次,你觉得完全值得?
戴雨森:当然值得啊,200 美元买一次研究,平均到每次 2 美元。这种性价比太高了。
Q:你有没有一些其它书籍推荐?
戴雨森:我特别推荐一本书,叫《A Brief History of Intelligence》。这本书的作者是一位科技创业者,他从地球生命的起源讲到 GPT-4,总结了智能演进过程中的五次关键突破,并分析了每次突破的驱动力以及由此带来的影响。这是我 2024 年的年度推荐书目之一。
我还推荐给 OpenAI 的研究员,他们读完之后也觉得很有启发。这本书不仅能帮助我们理解智能的演化,也让我们意识到——我们可能正站在第六次大爆发的前夜,甚至已经进入了这个时代。
Q:还有其他推荐吗?
戴雨森:有一本更专业一点的书,叫《第一只眼》。它讲的是寒武纪生物大爆发的历史。地球上生命存在了 20 亿年,但一直是鼻涕虫一样的软体动物。然后在寒武纪的几百万年里,生命突然演化出了多个门类,生物多样性大爆发。
为什么会发生这样的进化?有很多理论,比如空气含量变化、海水成分变化等等,但这本书提出了一个「光变假说」,认为正是因为某些生物偶然进化出了感光细胞,它们可以感知光线,获得了生存优势。随着感光细胞越来越多,最终演化出了真正的眼睛。而当第一只眼睛出现时,整个生物圈的竞争格局发生了巨变,捕食者变得更强,被捕食者也进化出了保护机制,比如甲壳或者更敏捷的运动能力。
这个理论让我联想到 AI 发展的现状。DeepSeek 发布等一系列进展,让我觉得 AI 也处于类似的「寒武纪大爆发」阶段。当竞争变得激烈,所有人都必须快速前进,才能不被淘汰。这就像《爱丽丝梦游仙境》里的红皇后假说——「你必须拼命奔跑,才能留在原地。」
这种竞争推动了技术进步,使 AI 发展得越来越快。但从进化的角度来看,这既是生存竞争,也是智能发展的必然结果。
Q:刚才你提到智能的演化,语言的作用是不是也是其中之一?
戴雨森:对,语言其实是智能演化中相对晚期才出现的特征,它是一种高度浓缩的信息表达方式。现在的 AI 主要是基于语言模型进行训练,因为语言本身包含了极高的信息密度。
但这也引发了一个问题:如果 AI 真的足够聪明,它是否会重新发明一种语言,而不再局限于人类的自然语言?刘慈欣的某部科幻小说就提到,外星文明可能会认为人类用语言交流是极低效的方式。
所以,现在 AI 主要依赖语言模型,但未来也许会超越语言。AI 的思维速度远超人类,如果让它继续使用人类的语言,它可能会受到表达方式的限制。回顾智能演化的历史,有助于我们理解 AI 未来可能的发展方向。
Q:你提到了强化学习(reinforcement learning),它在智能演化中是怎么起作用的?
戴雨森:这本书也探讨了强化学习的起源,并通过大量进化生物学的案例进行分析。我觉得这些研究对 AI 领域有很大的启发。
Q:非常感谢雨森做客。今天我们从 o1 和 R1 这两个关键进展聊起,讨论了它们对 AI 格局的影响,以及随之而来的变革。2025 年,或许我们会迎来更多 AI Agent 的 PMF 突破,以及更多「李世石时刻」的到来。
戴雨森:谢谢邀请,我也期待 2025 年的 AI 发展。我们还处在 AI 智能革命大爆发的第一天,未来一定会有更多惊喜!
53AI,企业落地大模型首选服务商
产品:场景落地咨询+大模型应用平台+行业解决方案
承诺:免费场景POC验证,效果验证后签署服务协议。零风险落地应用大模型,已交付160+中大型企业
2024-08-13
2024-06-13
2024-08-21
2024-09-23
2024-07-31
2024-05-28
2024-08-04
2024-04-26
2024-07-09
2024-09-17
2025-04-02
2025-04-02
2025-04-01
2025-04-01
2025-04-01
2025-03-30
2025-03-30
2025-03-28