我要投稿

吴恩达谈论DeepSeek-R1

发布日期：2025-02-09 05:32:22 浏览次数： 2126 作者：跳动的数据

本周，DeepSeek引发的热议让许多人清晰地意识到几个早已显现的重要趋势：(i) 中国在生成式AI领域正快速赶超美国，这对AI供应链产生深远影响；(ii) 开放权重模型正在使基础模型层商品化，为应用开发者创造新机遇；(iii) 扩大规模并非AI进步的唯一途径。尽管算力备受关注和炒作，算法创新正快速降低训练成本。

约一周前，中国公司深度求索(DeepSeek)发布了DeepSeek-R1，这款性能与OpenAI的o1旗鼓相当的杰出模型，以宽松的MIT协议开放权重许可。上周达沃斯论坛期间，我收到许多非技术背景的商业领袖对此的询问。周一股市更出现"DeepSeek抛售潮"：英伟达等多家美国科技公司股价暴跌（截至撰稿时已部分回升）。

我认为DeepSeek促使人们认识到以下几点：

中国正缩小生成式AI领域与美国的差距。2022年11月ChatGPT发布时，美国在该领域明显领先。但认知转变往往滞后，即便近期我仍听闻中美两国朋友认为中国落后。实际上，这一差距在过去两年迅速缩小。通过Qwen（我的团队已使用数月）、Kimi、InternVL及DeepSeek等模型，中国明显正在赶超，在视频生成等领域甚至偶现领先。

欣见DeepSeek-R1以开放权重形式发布，技术报告披露诸多细节。相较之下，部分美国公司通过渲染"AI灭绝人类"等假想威胁推动监管，实则遏制开源。如今开源/开放权重模型已成为AI供应链关键环节：众多企业将采用这类模型。若美国继续阻挠开源，中国将主导该领域，使更多企业使用反映中国而非美国价值观的模型。

开放权重模型加速基础模型层商品化。正如先前所述，LLM token价格持续走低，开放权重既助推此趋势，又为开发者提供更多选择。OpenAI的o1每百万输出token收费60美元，DeepSeek R1仅需2.19美元。这近30倍的价差令降价趋势引发广泛关注。

基础模型训练与API销售业务面临挑战。该领域许多公司仍在寻求收回高昂训练成本的途径。《AI的6000亿美元难题》一文对此剖析精辟（需要明确的是，我认为基础模型公司的工作卓越，期待其成功）。相比之下，基于基础模型开发应用蕴含大量商机。在他人耗费数十亿训练模型后，你仅需数美元即可使用这些模型，开发客户服务聊天机器人、邮件摘要工具、AI医生、法律文书助手等应用。

规模扩张并非AI进步唯一路径。围绕模型扩容推动进步的炒作甚嚣尘上。公平而言，我曾是模型扩容的早期倡导者。部分公司通过制造"更多资金=更大规模=可预见进步"的叙事融资数十亿。这导致过度聚焦规模扩张，而非全面认知多种进步路径。受美国AI芯片禁令驱动，DeepSeek团队被迫在较弱的H800 GPU上创新优化，最终以不足600万美元计算成本完成模型训练（研发成本另计）。

这能否真正降低算力需求尚待观察。有时商品单价下降反而刺激总消费增长。我认为智能与算力需求长期看几无上限，因此坚信即便成本下降，人类对智能的需求仍将持续增长。

社交媒体对DeepSeek进展的解读犹如罗夏墨迹测试，众人投射各自理解。我认为DeepSeek-R1的地缘政治影响尚未完全显现。对AI应用开发者而言，这无疑是重大利好。我的团队已开始头脑风暴，构思如何利用这个开放的高级推理模型实现新突破。当下仍是构建未来的黄金时期！

持续精进