微信扫码
与创始人交个朋友
我要投稿
DeepSeek 以其低成本高效率在AI领域引起震动,国内互联网巨头如何应对?核心内容:1. DeepSeek 成功打破大语言模型发展范式2. 资源限制下的创新与DeepSeek案例3. DeepSeek对国内互联网巨头的潜在影响及启示
DeepSeek 的成功打破了之前国内科技领域对于大语言模型的既定发展范式,或许接下来会产生一些涟漪效应。
无可否认 DeepSeek 已经取得了成功。从当前已经对国内外 AI 领域所产生的影响来看,无论这家公司后续发展如何,现在都是成功的案例。
当资源受到限制时,往往会激发创新。而 DeepSeek 的突然出现,对此是又一例佐证。相反,当资源充沛时,创新未必会如期而来。
对于国内互联网巨头而言,或许决策层此前并不相信只需要如此少的计算资源也可以训练出如此性能优异的大语言模型。过去几年里,中国互联网巨头的普遍做法是集中所有的 GPU 算力资源,交给一个团队,硬砸。这种「集中资源办大事」是一种合理的思考路径,就实际产出效果而言,并不够好。虽然几家巨头已经推出的大模型从指标上看,似乎不错,我相信内部评估仍然是未达到预期。
目前还没有看到哪位大佬说已经拿到「AI 的船票」。
DeepSeek 打破了迷思,向业界证明了可以把大语言模型的训练成本降低 1 到 2 个数量级之间,据估算训练成本不到 600 万美元,而此前业界普遍认为的训练成本则是 1 亿美元甚至更多,直接掀起显卡「军备竞赛」。能承担起几百万美元训练成本的公司要比能承担 1 亿美元成本的公司多出几个数量级。
对于互联网巨头的影响则可能是,此前好不容易凑起来的计算资源,我们假设 10000 张显卡起步,那么现在至少可以分成 5 个 2000 个显卡资源池,交给 5 个团队去尝试,成功的几率会增加许多。为什么是 2000 张?DeepSeek V3 用 2000 块显卡训练出的。
以腾讯为例,如果微信团队早就有 2000 张显卡可以支配的话,或许 DeepSeek 这样有影响力的模型,就会出于微信之手。我这么说的依据在于,目前外界分析,DeepSeek 团队直接对 PTX 进行优化,提高了计算性能。如果一个原本面向金融的技术团队能做到这一点的话,一个面向通讯的团队当然也具备这样的能力,不排除有这样的的可能。
类似的情况,对于阿里巴巴或是字节跳动,也应该同样适用。如果现在不再不只是拼显卡数量,那么,应该考虑的是,哪个团队具备技术和产品上的创新能力。
鸡蛋不应该只放在一个篮子里。
这是一种战略上的必然选择。而这种选择,很可能会在 2025 年发生。
53AI,企业落地大模型首选服务商
产品:场景落地咨询+大模型应用平台+行业解决方案
承诺:免费场景POC验证,效果验证后签署服务协议。零风险落地应用大模型,已交付160+中大型企业
2025-02-05
Gemini 2.0 Flash小试牛刀
2025-02-05
大模型数据建设探索与实践
2025-02-05
国产 AI 搜索接入 DeepSeek,高速,满血,还能联网!
2025-02-05
AI自创符号语言:DeepSeek内部私语被曝光!
2025-02-05
OpenAI发布了ChatGPT新功能Deep Research(深度研究),几分钟内完成人类需要数小时才能完成的工作
2025-02-05
独家:中国大模型中标项目监测与洞察报告(2025年1月)
2025-02-05
OpenAI智能体Operator背后CUA技术解析
2025-02-05
Google AI发布Gemini 2.0 Flash Thinking 模型
2024-08-13
2024-09-23
2024-05-28
2024-06-13
2024-08-21
2024-04-26
2024-08-04
2024-07-09
2024-07-01
2024-09-17
2025-02-04
2025-02-01
2025-02-01
2025-02-01
2025-02-01
2025-01-29
2025-01-24
2025-01-24