微信扫码
添加专属顾问
我要投稿
深入解析DeepSeek V3 R1推理系统,掌握其部署架构和推理阶段的关键技术。 核心内容: 1. 模型推理的两个阶段:Prefill和Decode的详细解析 2. R1部署架构的逻辑结构和配置要求 3. 如何在大规模并发场景下优化R1配置
要点总结:
1. 统一的 61 层结构:
- Prefill 和 Decode 阶段均使用相同的 61 层结构,无需额外子层划分
2. Prefill 阶段特点:
- 一次性输入所有 Token,进行并行计算
- 不需要 KV-Cache
3. Decode 阶段特点:
- 每次输入 1 个 Token,利用 KV-Cache 避免重复计算
- 每层的 Self-Attention 读取 KV-Cache 并生成新的 KV
4. MoE(稀疏专家):
- MoE FFN 是每层结构的一部分,Prefill 和 Decode 阶段均按需使用
- 提供稀疏计算以提升模型效率和扩展能力
二、R1的部署架构
逻辑上,R1有61个decoder层,每层 256 个路由专家 + 8 个激活专家 + 1 个共享专家。最简配置可以以SGLang的方式在8个MI300X或者8个H200上部署。
DeepSeek R1满血版on Azure AMD MI300X
但如果面对大规模并发时,可以参考优化配置。
━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━
53AI,企业落地大模型首选服务商
产品:场景落地咨询+大模型应用平台+行业解决方案
承诺:免费场景POC验证,效果验证后签署服务协议。零风险落地应用大模型,已交付160+中大型企业
2025-04-21
一台3090就能跑Gemma 3 27B!谷歌发布Gemma 3全系QAT版模型
2025-04-20
MCP vs Function Calling,该如何选?
2025-04-20
国内企业应用AI大模型赋能软件测试的落地实践案例
2025-04-20
8卡H20运行DeepSeek-V3-0324性能和推理实测
2025-04-19
低延迟小智AI服务端搭建-ASR篇(续):CPU可跑
2025-04-19
LoRA 与QLoRA区别
2025-04-18
DeepSeek-V3-0324 本地部署,vLLM和SGLang的方法
2025-04-18
Ollama对决vLLM:DEEPSEEK部署神器选谁?90%人选错!这份实测攻略让你秒懂!
2025-02-04
2025-02-04
2024-09-18
2024-07-11
2024-07-09
2024-07-11
2024-07-26
2025-02-05
2025-01-27
2025-02-01
2025-04-20
2025-04-01
2025-03-31
2025-03-20
2025-03-16
2025-03-16
2025-03-13
2025-03-13