微信扫码
与创始人交个朋友
我要投稿
DeepSeek-V3是一个强大的MoE语言模型,总参数量为671B,每个token激活37B的参数。
为了实现高效的推理和具有成本效益的训练,DeepSeek-V3采用了多头潜在注意力(MLA)和 DeepSeekMoE架构。这些架构已经在DeepSeek-V2中得到了充分验证,此外,DeepSeek-V3开创了无需辅助损失的负载均衡策略,并设置了多token预测训练目标以提高性能。
训练流程
1.在训练期间,我们使用了14.8万亿个高质量且多样的token对DeepSeek-V3进行训练。训练过程非常稳定。在整个训练过程中,我们没有遇到任何不可恢复的损失峰值或必须进行回滚的情况。
2.接下来,我们对DeepSeek-V3进行两阶段的上下文长度扩展。在第一阶段,最大上下文长度扩展到32K,在第二阶段,进一步扩展128K。
3.在此之后,我们在DeepSeek-V3的基础模型上进行后训练,包括监督微调和强化学习,以使其与人类偏好保持一致,并进一步释放其潜力。在后训练阶段,我们从DeepSeek-R1系列模型中提取推理能力,同时仔细保持模型准确性和生成长度之间的平衡。
训练成本
综合评估表明,DeepSeek-V3的性能优于其他开源模型,并且可以媲美领先的闭源模型。尽管性能出色,DeepSeek-V3的完整训练仅需278.8万H800 GPU小时。
在预训练阶段,使用2048个H800 GPU的集群,每训练一万亿个token仅需18万个H800 GPU小时,即3.7天。因此,我们的m预训练阶段在不到2个月的时间内完成,成本为266.4万GPU小时。
加上上下文长度扩展的11.9万GPU小时和后训练的5千GPU小时,DeepSeek-V3的完整训练仅需要278.8万GPU小时。
假设H800 GPU的租用价格为每GPU小时2美元,我们的总训练成本仅为557.6万美元。
请注意,上述成本仅包括DeepSeek-V3的正式训练,不包括先前对架构、算法或数据进行的研究和消融实验相关的成本。
模型架构
系统优化
最后,我们再次强调DeepSeek-V3的经济训练成本,如表1所示,这是通过我们对算法、框架和硬件的优化协同设计实现的。
核心贡献
架构:创新的负载均衡策略和训练目标
在DeepSeek-V2的高效架构基础上,我们开创了一种无需辅助损失的负载均衡策略,最大限度地减少了因鼓励负载均衡而导致的性能下降;
我们研究了一种多token预测目标,并证明了它有利于模型性能。它还可以用于推理解码中的推测解码,以加速推理。
预训练:迈向极致的训练效率
我们设计了一个FP8混合精度训练框架,并首次在一个超大规模模型上验证了FP8训练的可行性和有效性。
通过算法、框架和硬件的协同设计,我们克服了跨节点MoE训练中的通信瓶颈,实现了接近完全的计算-通信重叠。这显著提高了我们的训练效率并降低了训练成本,使我们能够在不增加额开销的情况下进一步扩展模型规模;
仅以266.4万H800 GPU小时的经济成本,我们就完成了DeepSeek-V3在14.8万亿token上的预训练,产生了目前最强大的开源基础模型。预训练之后的后训练阶段仅需要10万GPU小时。
后训练:来自DeepSeek-R1的知识蒸馏
我们引入了一个创新的方法,将推理能力从长链式思维(CoT)模型提炼到标准LLM中,特别是DeepSeek-V3。我们的管道巧妙地将R1的验证和反思模式融入到DeepSeek-V3中,并显著提高了其推理性能。同时,我们也保持对DeepSeek-V3输出风格和长度的控制。
53AI,企业落地应用大模型首选服务商
产品:大模型应用平台+智能体定制开发+落地咨询服务
承诺:先做场景POC验证,看到效果再签署服务协议。零风险落地应用大模型,已交付160+中大型企业
2025-01-06
增强大模型的推理能力:从思维链到连续思维链(中)
2025-01-06
2024年全年,大模型中标项目被谁拿走了?
2025-01-06
OpenAI CEO:一路坎坷,但AGI就在前方
2025-01-06
构建智能未来:Google AI 智能体白皮书
2025-01-06
谷歌刚刚发布 AI Agent 白皮书,2025 年agent时代已开启
2025-01-05
极客说|微软新模型:Phi-4 来了
2025-01-05
LLM 竞赛 2025: 超越 Google 之路
2025-01-04
人工智能小白到高手:大模型通过 Function calling 沟通外部世界
2024-05-28
2024-08-13
2024-04-26
2024-08-21
2024-06-13
2024-08-04
2024-07-09
2024-09-23
2024-04-11
2024-07-18