AI知识库

53AI知识库

学习大模型的前沿技术与行业应用场景


对 DeepSeek 和智能下半场的几条判断
发布日期:2025-02-07 20:18:06 浏览次数: 1559 来源:海外独角兽
推荐语

深入剖析DeepSeek在AI领域的地位与影响,探讨智能下半场的发展方向。

核心内容:
1. DeepSeek如何解决RL谜题,推动AI进入新范式
2. DeepSeek与OpenAI、Meta等第一梯队的差距分析
3. 下一代智能架构和范式的探索方向

杨芳贤
53A创始人/腾讯云(TVP)最具价值专家


作者:李广密

编辑:penny,Siqi

从 24Q3 开始我们就一直在讲 AI 的下半场,虽然 OpenAI o1 提出了 RL 叙事,但因为各种原因没有破圈,DeepSeek R1 解了 RL 的谜题,推进整个行业进入了新范式,真正进入智能下半场。


市场上关于 DeepSeek 是什么、为什么的讨论已经很多了,接下来更有价值讨论是 AI race 要怎么 play ?把过去半个月的思考总结了一下,希望成为探索下半场的 road map,每隔一段时间来复盘。也列出了几个最好奇的问题,欢迎填写问卷一起交换想法,我们会围绕下一个智能突破的 Aha moment 组织一场小范围讨论会:


 下一个智能突破的 Aha moment 会从哪出现?


 如果你有充裕的探索资源,你会把探索资源投入在什么方向上?


 比如下一代 Transformer 架构、合成数据的突破、Online Learning 更高效率的学习方式,你会有哪些 Bet?




Insight 01

DeepSeek 超越 OpenAI 了吗?


DeepSeek 超越了 Meta Llama 毫无疑问,但相比 OpenAI、Anthropic 和 Google 这些第一梯队 players 还有距离,比如 Gemini 2.0 Flash 成本比 DeepSeek 更低,能力也很强,且全模态,外界低估了 Gemini 2.0 为代表的第一梯队的能力,只是没有开源而获得这么炸裂轰动性的效果。


DeepSeek 很让人兴奋,但还不能称作范式级创新,更准确的表述是将之前 OpenAI o1 半遮半掩的范式开源,将整个生态推向很高渗透率。


从第一性原理角度,在 Transformer 这一代架构下超越第一梯队模型厂商是有难度的,同样路径下很难实现弯道超车可能,今天更期待有人能探索出下一代的智能架构和范式。


DeepSeek 用一年时间

追上了 OpenAI 和 Anthropic



Insight 02

DeepSeek 开启新范式了吗?


就像前面说的,严格意义上说,DeepSeek 没有发明新范式。


但 DeepSeek 的重要意义在于帮助 RL 和 test time compute 这个新范式真正出圈。如果说 OpenAI 最初发布的 o1 是给行业出了一个谜语,DeepSeek 就是第一个公开解谜的人。


DeepSeek 发布 R1 和 R1-zero 之前,行业只有少部分人在实践 RL 和 reasoning model,但 DeepSeek 给大家指明了路线图,让行业相信这样做真的能提升智能,这对提升信心,吸引更多 AI researcher 转向新范式的研究有巨大的帮助。


有人才进入,才有算法创新,有开源紧追才有更多计算资源投入。在 DeepSeek 之后,原本计划不再发新模型的 OpenAI 接连发出 o3mini,并计划继续发布 o3,还考虑开源模型。Anthropic 和 Google 也会加快 RL 的研究。行业对新范式的推进因为 DeepSeek 加快,中小团队也可以在不同的 domain 上尝试 RL。


另外,reasoning model 的提升会进一步帮助 agent 落地,AI researcher 现在都因此对 agent 的研究和探索更有信心,因此也可以说 DeepSeek 开源 reasoning model 推进了行业向 Agent 的进一步探索。


所以 DeepSeek 虽然没有发明新范式,但推进整个行业进入了新范式。



Insight 03

Anthropic 的技术路线和 R1 有什么不同?


从 Dario的访谈可以看出,Anthropic对R-1/reasoning model的理解,与O系列有些分歧,Dario觉得 base model 与 reasoning model应该是个连续光谱,而非 OpenAI 这种独立的模型系列。如果只做 O 系列会很快遇到天花板。


我一直想为什么 Sonnet 3.5的coding、reasoning 和 agentic能力一下子提升这么强,但 4o 一直没追上?


他们在 pre training base model 阶段就做了大量 RL 工作,核心还是把 base model 提上去,不然只靠 RL 提升 reasoning model 可能很容易把收益吃光。



Insight 04

DeepSeek 的轰动有必然,也有偶然


两位早期 OpenAI 研究员写的《为什么伟大不能被计划》形容 DeepSeek 也很合适


技术角度上,DeepSeek 有下面几个亮点:

• 开源:开源这点很重要,OpenAI 从 GPT-3 开始转为闭源公司后,第一梯队三巨头就不再公开技术细节,拱手让出了一个空白的开源生态位,但 Meta 和 Mistral 并没有接稳这个位置,DeepSeek 这次堪称奇袭,在开源这块大赛道一马平川。


如果把轰动性打 100 分,智能提升贡献 30 分,开源贡献 70 分,之前 LLaMA 也开源但没有这么轰动的效果,说明 LLaMa 智能水平不够。


• 便宜:“Your margin is my opportunity” 这句话的含金量还在上升。


• 联网+公开 CoT:对于用户这两个点分别都能带来很好的用户体验,DeepSeek 把两张牌同时出了,可以说是王炸,给到 C 端用户的体验和其他 Chatbot 完全不一样。尤其是 CoT 透明,把模型思考过程公开了,透明能让用户对 AI 更信任,促进了破圈。不过,按理说 Perplexity 也是冲击很大的,但 DeepSeek 服务端不稳定,Perplexity 团队快速反应上线了 R-1 反而承接了很大 DeepSeek R-1 溢出的用户。


• RL 泛化:虽然 RL 是 OpenAI o1 最先提出来的,但因为各种运营一直半遮半掩,渗透率并不高,DeepSeek R-1 很大意义推动了 reasoning model 范式的进程,生态接受度大幅提升。


DeepSeek 在技术上的探索投入是被这个智能成果值得更多人关注、讨论的确定性因素,但 DeepSeek R1 推出的 timing 又让这场轰动带有偶发性:


• 过去美国一直讲自己在基础技术研究上大幅领先,但 DeepSeek 原生于中国国内,这本身也是一个亮点,这个过程中,又有很多美国科技大佬开始去宣扬 DeepSeek 挑战了美国科技霸主的地位的论调,DeepSeek 属于被动卷进舆论战;


• DeepSeek R1 发布之前,OpenAI Stargate $500B 事件刚刚开始发酵,这种巨量投入和 DeepSeek 团队智能产出效率对比太鲜明了,很难不引发关注、讨论;


• DeepSeek 让英伟达股价大跌又进一步让舆论发酵,他们肯定也想不到自己成为了 2025 开年美股第一只黑天鹅;


• 春节是产品的练兵场,移动互联网时代很多超级 App 都是在春节大爆发的,AI 时代也不例外。DeepSeek R1 恰好在春节前发布,大众惊喜的是它的文字创作能力,而不是训练时候强调的 coding 和数学能力,文创更容易被大众用户有体感,也更容易 go viral。



Insight 05

谁受伤?谁受益?


可以把这个赛场上的 players 分 3 类:ToC、To Developer 以及 To Enterprise( to Government):


1. ToC:Chatbot 肯定受冲击最大,心智和品牌关注度被 DeepSeek 抢走了,ChatGPT 也不例外;


2. 在开发者环节的影响很有限,我们看到有用户用完之后说评论 r1 不好用不如 sonnet,Cursor 官方也说 Sonnet 还是 outperform,用户 surprisingly 高比例都选择 Sonnet,并没有大幅迁移;


3. 第三个维度,To Enterprise 和 To Government 的生意在于信任和需求理解,大型组织做决策的利益考虑很复杂,不会像 C 端用户那么容易迁移。


再换个角度,从闭源、开源和算力的视角想这个问题:


短期大家会觉得闭源的 OpenAI/Anthropic/Google 更受冲击:


 技术神秘感被开源了,AI hype 里面最重要的神秘感的溢价被打破;


 更现实的因素,市场认为这几家闭源公司的潜在客户和市场规模被抢走了一些,GPU 投入的回本周期变长;


 作为领头羊的 OpenAI 在其中属于最“吃亏”的那个,之前想捂着技术不开源,半遮半掩,希望多赚技术溢价的美梦无法实现了。


但中长期看,GPU 资源充裕的公司还是受益的,一方面是第二梯队的 Meta 可以快速跟进新方法,Capex 更加 efficient,Meta 可能是很大受益者,另一方面是智能提升还需要更多探索,DeepSeek 开源把大家水平拉齐,进入全新探索又需要 10 倍甚至更大量级的 GPU 投入。


从第一性原理来想,对于 AI 智能产业来说,无论是发展智能还是应用智能,从物理本质上就必然要消耗海量算力,这是基础定律决定的,不是技术优化能完全规避的。


所以,无论是探索智能,还是应用智能,即便短期有质疑,中长期的算力需求也会爆炸,这也解释了为什么马斯克从第一性原理出发,xAI 坚持扩建集群,xAI 和 Stargate 背后的深层逻辑也许是一样的。Amazon 等云厂商都宣布了要增加 Capex 指引。


我们就假设全球的 AI research 人才水平和认知都拉齐,有更多 GPU 就可以做更多实验探索?最后可能还是回到 compute 的竞争。


DeepSeek 光脚不怕穿鞋,没有商业化诉求,专注 AGI 智能技术探索,开源这个动作对推动 AGI 进程推动意义很大,加剧了竞争,推动了开放性,颇有鲶鱼效应。



Insight 06

蒸馏能超越 SOTA 吗?


有个细节点不确定,如果 DeepSeek 从 pre train 阶段就大量使用蒸馏的 CoT 数据,那做到今天效果不算惊艳,还是在第一梯队巨头的肩膀上获得的基础智能,然后再开源出来;但如果 pre train 阶段没有大量用蒸馏数据,DeepSeek 从 0 做 pre train 做到今天的效果,那就堪称惊艳了。


另外,蒸馏能否在 base model 超越 SOTA,应该是不太可能的。但 DeepSeek R-1 非常强,猜测是 Reward model 做的非常好,如果 R-1 Zero 这条路径靠谱,是有机会超越 SOTA。



Insight 07

No Moat ! 


Google 之前对 OpenAI 的一个评价:No Moat!这句话放在这里也很应景。



DeepSeek 这一波  Chatbot 用户又出现了大量迁移现象,给了市场一个很重要的启发:智能技术进步非常陡峭,阶段性产品很难形成绝对壁垒。


不管是 ChatGPT/Sonnet/Perplexity 刚形成了心智和口碑,还是 Cursor、Windsurf 这类开发者工具,一旦有了更智能的产品,用户对“上一代”智能的产品毫无忠诚度,今天不管是模型层还是应用层都很难构建护城河。


DeepSeek 这次也验证了一件事:模型即应用,DeepSeek 在产品形式上没任何创新,核心就是智能+开源,我也不禁思考:在 AI 时代,任何产品和商业模式的创新都比不上智能的创新吗?



Insight 08

DeepSeek 应该承接

这波 Chatbot 流量并做大吗?


从 Chatbot 爆火到今天,通过 DeepSeek 团队的反应可以明显感觉出来,DeepSeek 还没想好怎么用这波流量。


而要不要接住、并积极运营这批流量这个问题的本质是,伟大的商业公司和伟大的 research lab 能共存在一个组织吗?


这件事非常考验精力和资源分配、组织能力和战略选择,如果是字节、Meta 这类大公司,他们的第一反应应该都要接下来,也有一定组织基础可以接下来,但 DeepSeek 作为一个 research lab 组织,承接这波巨量流量的压力必然很大。


但同时也要想这一波 Chatbot 会是阶段性流量吗?Chatbot 是不是在未来智能探索的主线下?似乎感觉每个智能阶段都有对应的产品形态,而 Chatbot 只是解锁的其中一个早期形态。


对于 DeepSeek 来说,从未来 3-5 年视角看,如果今天不去承接 Chatbot 流量,会不会是一种 miss?万一哪天跑出规模效应?如果 AGI 最终实现了,又会是什么载体来承接?



Insight 09

下一个智能突破的 Aha moment 从哪来?


一方面,第一梯队的下一代模型很关键,但今天我们又处在 Transformer 的极限边界上,第一梯队能否拿出代际提升的模型也不确定。OpenAI、Anthropic 和 Google 作为回应发出来好 30-50%的模型可能都不够挽回局势,因为他们资源多了 10-30 倍。


另一方面, Agent 落地比较关键,因为 Agent 需要做长距离多步骤推理,如果模型好 5-10%,领先的效果就会被放大很多倍,所以 OpenAI、Anthropic 和 Google 一方面要做 Agent 产品落地,full stack 集成模型+Agent 产品,就像 Windows+Office,二是也要 show 出来更强大的模型,比如 O3 完整版、Sonnet 4/3.5 opus 为代表的下一代模型。


在技术不确定性下,最宝贵的是天才 AI researchers,任何想要探索 AGI 的组织都要投入资源更激进的 bet on next paradigm,尤其是在今天 pre training 阶段已经被拉齐的背景下,要有好的人才+充裕资源,探索下一个智能涌现的 Aha moment。



Insight 10

DeepSeek 这一波让我

中国 AI 人才更有信心,非常鼓舞


最后,希望技术无国界。




排版:杨乐乐

延伸阅读

扛住 DeepSeek 黑天鹅,AGIX 如何实现 3 倍纳指回报


86 条 DeepSeek 的关键思考 |Best Ideas 开源


Decagon:用 AI Agent 解放客服团队,能否成为下一个独角兽?


拾象 2025 AI Best Ideas:20大关键预测


Agent 最全 Playbook:场景、记忆和交互创新









53AI,企业落地大模型首选服务商

产品:场景落地咨询+大模型应用平台+行业解决方案

承诺:免费场景POC验证,效果验证后签署服务协议。零风险落地应用大模型,已交付160+中大型企业

联系我们

售前咨询
186 6662 7370
预约演示
185 8882 0121

微信扫码

与创始人交个朋友

回到顶部

 
扫码咨询