我要投稿

一体机，阻碍DeepSeek性能的最大绊脚石！

发布日期：2025-03-13 08:00:26 浏览次数： 1678 作者：特大号

一体机是DeepSeek交付的最佳方式吗？

恰恰相反，一体机是阻碍DeepSeek提升推理性能的最大绊脚石。

为啥？

只因DeepSeek这个模型有点特殊，它是个高稀疏度的MoE模型。

MoE这种混合专家模型，设计的初衷是通过“激活一堆专家中的少量专家”，来达到减少计算量、提升推理效率的目标。

举个例子，MoE模型好比是一个超级大饭店的后厨，这个后厨里有几百个大厨，每个大厨擅长做不同菜系川菜厨子、鲁菜厨子、湘菜厨子…

这些厨子就相当于不同领域的专家。

其中有个人是厨师长，厨师长不负责炒菜，他清楚地知道每个厨师擅长做什么菜。

这个厨师长就是MoE模型中的门控网络。

每次顾客点菜的时候，厨师长（门控网络）会根据顾客点菜的需求以及自己对厨师能力的了解，安排擅长做这些菜的厨子炒菜。

这样，酒店的后厨就不必为每位厨师安排灶眼，只需少量灶眼（比如8个），供那些需要上岗炒菜（被激活）的厨师使用就可以了。

这就相当于MoE的原理：只激活少量专家，从而大幅降低计算量。

是不是看起来很不错，但是有一点很重要：不参与炒菜的厨子们虽然不占用灶眼，但是还是要挤在后厨随时等待召唤。

也就是说，MoE模型里那些未激活专家，虽然不消耗算力，但它们的参数量仍然要占用显存/内存，带来巨大的存储开销和调度复杂性。

回过头来，我们再来看DeepSeek-R1/V3，是稀疏度极高的MoE模型（总参数量6710亿，激活量370亿）。

按照DeepSeek官方的最新披露，模型每层256个专家，只有8个被激活（V3的Transformer 层数设置为 61 层）。

好比你的饭店有60多个后厨房间，每个屋里放256个厨师，同时只有8个厨师干活，其他待命。

你想想，恐怕只有新东方厨师专修学院才这么干吧。

这就意味着，你需要配置超高的一体机（大显存、大内存），才能够运行满血版DeepSeek。

事实证明，目前的状况也的确如此，市面上的“真·满血DeepSeek一体机”价格都是100万起，甚至要大几百万。

把MoE模型装进一体机的不科学之处在于↓

我花了大钱买了一堆不能同时干活的专家，只为他们可以减少计算量。

然而，这种一体机部署模式算力是我买断的，难道不应该让他们尽量都干活，从而让算力最大化使用吗？

我的显存/内存/硬盘都是为了装下6710亿参数，但实际干活只有370亿参数…

所以，我们的观点是：

一体机其实是运行DeepSeek这种MoE模型的最差选择，更适合运行那些非MoE的全参数激活模型。

这一点，大家如果仔细看上周DeepSeek官方在知乎披露的推理优化架构就明白了。

人家说的很清楚，要想获得“更大的吞吐、更低的延迟”，核心就是要使用「大规模跨节点专家并行」。

你一体机就单个节点、8张卡，勉强装下所有专家，还并行个毛线啊？

按照DeepSeek给出的官方参考推理架构（专家并行、数据并行、PD分离）：

Prefill阶段：部署单元4节点（32张H800），32路专家并行和数据并行。

Decode阶段：部署单元18节点（144张H800），144路专家并行和数据并行。

这就意味着，一个22节点的集群（176张卡），才能发挥出最优的推理吞吐和延迟。（让每个专家获得足够的输入，都忙活起来，而不是“占着茅坑不拉屎”）

正因为这种采用这种大规模并行架构，DeepSeek官方给出的单服务器平均推理性能才高得离谱（输入：73.7k tokens/s，输出14.8k tokens/s）。

而一体机厂商们给出的性能，输出+输入的总和最多也不过4k tokens/s。

当然，我们并不是要否定大模型一体机，只是一体机不适合部署MoE模型，让它跑个稠密模型，不需要大规模并行的，还是很好的。

眼下DeepSeek一体机满天飞，更多的还是满足客户的情绪价值：本地化、开箱即用、专属性……

尤其在数据隐私方面，一体机有着无与伦比的优势，不只是合规，更能切实有效的保护数据不出域。

比如，很多通过API、WEB或APP提供DeepSeek服务的供应商，在他们的用户协议里可能赫然写着“…我们可能会将服务所收集的输入及对应输出，用于本协议下服务的优化…”。

这对于大部分企业级客户来说，这都是无法接受的，所以本地化部署肯定是刚需，这也是目前DeepSeek一体机火爆的原因（即便性能不佳）。

其实，很多企业过去两年自己囤过算力，此时参考DeepSeek的大规模并行架构，部署起来，相信会有不错的效果。

而满血版的DeepSeek一体机，企业可以量预算而行，不要硬上：

第一，蒸馏版，体积小性能好，效果差点不耽误练手；

第二，最近新模型层出不穷，可以尝试下非MoE架构的小体积新模型；

第三，相信不久的将来下一代DeepSeek就会发布，届时再下手也不迟。

大模型的前方是星辰大海，但我们，才刚刚上路呢。

53AI，企业落地大模型首选服务商

产品：场景落地咨询+大模型应用平台+行业解决方案

承诺：免费场景POC验证，效果验证后签署服务协议。零风险落地应用大模型，已交付160+中大型企业

相关资讯

2025-04-18

DeepSeek-V3-0324 本地部署，vLLM和SGLang的方法

2025-04-18

Ollama对决vLLM：DEEPSEEK部署神器选谁？90%人选错！这份实测攻略让你秒懂！

2025-04-18

ollama v0.6.6 震撼发布！推理能力翻倍、下载提速 50%，对比 vLLM/LMDeploy 谁更强

2025-04-17

从零开始开发 MCP Server

2025-04-17

AI 应用开发不要在大模型迭代必经之路上

2025-04-17

阿里百炼出手了！MCP 现在配置门槛下降了 100 倍

2025-04-17

突发！OpenAI推出API组织验证：不验证就不让用最新模型

2025-04-17

教你在分分钟内将Cursor连接到100多台MCP服务器

了解更多

160+中大型企业正在使用53AI

立即咨询预约演示

把握AI发展的机遇，共同探索、共同进步

2025-01-22

如何打造基于GenAI的员工服务机器人

2025-01-22

热点资讯

一文读懂DeepSeek-R1本地部署配置要求（建议收藏）

2025-02-04

DeepSeek R1 671B 完整版本地部署教程来了！！！

2025-02-04

太爽了！o1 现在可以天天享用了

2024-09-18

万字综述 10+ 种 LLM 投机采样推理加速方案

2024-07-11

微调神器LLaMA-Factory官方保姆级教程来了，从环境搭建到模型训练评估全覆盖

2024-07-09

FP8 低精度训练：Transformer Engine 简析

2024-07-11

彻底理解系列之：FP32、FP16、TF32、BF16、混合精度

2024-07-26

别被Deepseek低成本冲昏头！本地化部署后续的“甜蜜陷阱”，你真能扛住吗？

2025-02-05

ollama 部署 deepseek-r1 70B 模型完整指南

2025-01-27

o3-mini 完全指南：一个被 DeepSeek 破大防的模型

2025-02-01

大家都在问

RAGFlow vs Dify, 商业化落地场景选哪个？

2025-04-01

如何利用Dify轻松构建你的专属语料库？

2025-03-31

从 0 到 1，Agentic Ops 如何打造企业级 AI 生产力？

2025-03-20

DeepSeek-R1的Qwen-32B蒸馏模型与QwQ-32B模型，谁更强？

2025-03-16

部署DeepSeek的4条路，企业级客户到底该咋走？

2025-03-16

谷歌Gemma 3 27b 到底能不能打，写个游戏测试下？

2025-03-13

强化学习(RL)是什么? 它和微调有什么区别?

2025-03-13

从DeepSeek到Manus：如何实现本地LLM微调+联网开发？

2025-03-11

热门标签

内容创作大模型技术个人提效 langchain llamaindex 多模态技术 RAG技术智能客服知识图谱模型微调 RAGFlow coze Dify Fastgpt Bisheng Qanything AI+汽车 AI+金融 AI+工业 AI+培训 AI+SaaS 提示词框架提示词技巧 AI+电商 AI面试数字员工 ChatBI 知识管理开源大模型智能营销智能硬件智能化改造 AI+医疗 MaxKB