微信扫码
添加专属顾问
我要投稿
一体机限制了DeepSeek性能提升,探索高稀疏度MoE模型的挑战。
核心内容:
1. DeepSeek模型的特殊性与一体机的不匹配
2. MoE模型工作原理及其对存储和调度的影响
3. DeepSeek-R1/V3模型参数量与实际激活量分析
把MoE模型装进一体机的不科学之处在于↓
然而,这种一体机部署模式算力是我买断的,难道不应该让他们尽量都干活,从而让算力最大化使用吗?
我的显存/内存/硬盘都是为了装下6710亿参数,但实际干活只有370亿参数…
一体机其实是运行DeepSeek这种MoE模型的最差选择,更适合运行那些非MoE的全参数激活模型。
Prefill阶段:部署单元4节点(32张H800),32路专家并行和数据并行。
Decode阶段:部署单元18节点(144张H800),144路专家并行和数据并行。
这就意味着,一个22节点的集群(176张卡),才能发挥出最优的推理吞吐和延迟。(让每个专家获得足够的输入,都忙活起来,而不是“占着茅坑不拉屎”)
第一,蒸馏版,体积小性能好,效果差点不耽误练手;
第三,相信不久的将来下一代DeepSeek就会发布,届时再下手也不迟。
大模型的前方是星辰大海,但我们,才刚刚上路呢。
53AI,企业落地大模型首选服务商
产品:场景落地咨询+大模型应用平台+行业解决方案
承诺:免费场景POC验证,效果验证后签署服务协议。零风险落地应用大模型,已交付160+中大型企业
2025-03-13
基于 mcphost 的智能体开发实战指南
2025-03-13
谷歌Gemma 3 27b 到底能不能打,写个游戏测试下?
2025-03-13
强化学习(RL)是什么? 它和微调有什么区别?
2025-03-13
大模型参数高效微调(PEFT)技术解析及微调加速实践
2025-03-13
我在县城“驯化”AI:有多少“人工”才有多少“智能”
2025-03-13
用极小模型复现R1思维链的失败感悟
2025-03-12
使用vLLM部署工具加速QWQ,推理速度比ollama更快、并发更高
2025-03-12
企业级私有化部署:基于 Ollama 实现 DeepSeek 大模型
2025-02-04
2025-02-04
2024-09-18
2024-07-11
2024-07-09
2024-07-11
2024-07-26
2025-02-05
2025-01-27
2025-02-01