支持私有化部署
AI知识库

53AI知识库

学习大模型的前沿技术与行业应用场景


545%利润率:DeepSeek逆袭OpenAI的黑科技!

发布日期:2025-03-03 21:15:57 浏览次数: 1594 作者:飞哥数智谈
推荐语

DeepSeek如何以545%利润率逆袭OpenAI?揭秘其背后的黑科技!

核心内容:
1. DeepSeek-V3/R1推理系统概览:理论成本利润率高达545%,日赚346万人民币
2. 专家并行(EP):将模型分散到多级多卡上并行计算,实现更大吞吐、更低延迟、更省成本
3. 计算通信重叠、负载均衡等技术,榨干每一块GPU,单块H800吞吐量突破73.7k tokens/s

杨芳贤
53A创始人/腾讯云(TVP)最具价值专家

前言

开源周连发五天,正当大家以为DeepSeek要收工时,它突然在知乎甩出一个彩蛋:《DeepSeek-V3/R1推理系统概览》。

原文:https://zhuanlan.zhihu.com/p/27181462601

弱弱说一句,DeepSeek刚入住知乎,这是第一篇也是唯一一篇文章,已收获粉丝2.2万。

看完之后,只有一句,牛逼!

文章直接明牌——理论成本利润率高达545%,比OpenAI便宜几十倍,还能日赚346万人民币。

下面给大家分享下这篇文章的主要内容。

第六天的彩蛋

——推理系统如何榨干每一块GPU?

DeepSeek这次公开的推理系统,目标简单粗暴:更大吞吐、更低延迟、更省成本。

  • 专家并行(EP):传统大模型,一块GPU干所有活。DeepSeek的专家并行(EP)则把模型分散到多级多卡上并行计算。白天高峰时,278个节点(每节点8块H800 GPU)全力推理;夜间闲置时,直接切到研发训练,硬件利用率拉满。

  • 计算通信重叠:跨节点协作最大的问题是通信延迟。DeepSeek的操作是:让计算和传输同时进行!

    • Prefill阶段:两个计算批次交错执行,一个算、一个传;
    • Decode阶段:拆成5级流水线,把通信时间“藏”在计算间隙里。简单说,就是让GPU永远别闲着。
  • 负载均衡:系统里最怕有的GPU累死,有的闲死。DeepSeek设计了三套动态均衡器:

    • Prefill阶段:按请求长度分配任务,避免长文本堵车;
    • Decode阶段:平衡KVCache内存占用,防止“内存大户”拖后腿;
    • 专家负载:自动复制高负载专家,分摊到空闲显卡。

最终单块H800的吞吐量:

  • 对于 prefill 任务,输入吞吐约 73.7k tokens/s(含缓存命中);
  • 对于 decode 任务,输出吞吐约 14.8k tokens/s。

Open VS Close

DeepSeek技术开源如火如荼,OpenAI却给出了个那样的GPT-4.5。

真像别人说的:以前OpenAI负责技术,DeepSeek负责高情商,现在,反过来了。

哦不对,DeepSeek贴吧老哥一样的情商,GPT-4.5估计还达不到。

以下是最近开闭源动作的合订本,方便大家了解(参考知乎“吕阿华”回答)。

  • OpenAI为了抢头条连续举办了12场发布会推出新产品;DeepSeek为了推动生态发展连续一周发布了一系列开源框架。
  • OpenAI为了减少亏损推出了每月200美元的会员计划;DeepSeek在供不应求的情况下始终坚持免费服务。
  • OpenAI推出了GPT-4.5,性能提升有限但API单价上涨了30倍;DeepSeek则实施了夜间降价策略。
  • OpenAI在2024年中预计当年亏损将达到50亿美元;DeepSeek则公开表示其利润率仍然很高。

总结

DeepSeek开源的技术很牛,但我感觉更牛的是:它证明了,除了“创意-PPT-讲故事”的模式外,专注于技术研发同样能够走向成功。

虽然成功的不是我,但同行者的光芒已经照亮了前行的路。

大家继续加油!

53AI,企业落地大模型首选服务商

产品:场景落地咨询+大模型应用平台+行业解决方案

承诺:免费场景POC验证,效果验证后签署服务协议。零风险落地应用大模型,已交付160+中大型企业

联系我们

售前咨询
186 6662 7370
预约演示
185 8882 0121

微信扫码

添加专属顾问

回到顶部

加载中...

扫码咨询