AI知识库

53AI知识库

学习大模型的前沿技术与行业应用场景


DeepSeek-V3技术报告速读
发布日期:2025-01-04 16:35:44 浏览次数: 1657 来源:MLSys2024


DeepSeek-V3是一个强大的MoE语言模型,总参数量为671B,每个token激活37B的参数

为了实现高效的推理和具有成本效益的训练,DeepSeek-V3采用了多头潜在注意力(MLA)和 DeepSeekMoE架构。这些架构已经在DeepSeek-V2中得到了充分验证,此外,DeepSeek-V3开创了无需辅助损失的负载均衡策略,并设置了多token预测训练目标以提高性能

训练流程

1.在训练期间,我们使用了14.8万亿个高质量且多样的token对DeepSeek-V3进行训练。训练过程非常稳定。在整个训练过程中,我们没有遇到任何不可恢复的损失峰值或必须进行回滚的情况。

2.接下来,我们对DeepSeek-V3进行两阶段的上下文长度扩展。在第一阶段,最大上下文长度扩展到32K,在第二阶段,进一步扩展128K。

3.在此之后,我们在DeepSeek-V3的基础模型上进行后训练,包括监督微调和强化学习,以使其与人类偏好保持一致,并进一步释放其潜力。在后训练阶段,我们从DeepSeek-R1系列模型中提取推理能力,同时仔细保持模型准确性和生成长度之间的平衡。

训练成本

综合评估表明,DeepSeek-V3的性能优于其他开源模型,并且可以媲美领先的闭源模型。尽管性能出色,DeepSeek-V3的完整训练仅需278.8万H800 GPU小时

在预训练阶段,使用2048个H800 GPU的集群,每训练一万亿个token仅需18万个H800 GPU小时,即3.7天。因此,我们的m预训练阶段在不到2个月的时间内完成,成本为266.4万GPU小时。

加上上下文长度扩展的11.9万GPU小时和后训练的5千GPU小时,DeepSeek-V3的完整训练仅需要278.8万GPU小时。

假设H800 GPU的租用价格为每GPU小时2美元,我们的总训练成本仅为557.6万美元。

请注意,上述成本仅包括DeepSeek-V3的正式训练,不包括先前对架构、算法或数据进行的研究和消融实验相关的成本。

模型架构

系统优化

最后,我们再次强调DeepSeek-V3的经济训练成本,如表1所示,这是通过我们对算法、框架和硬件的优化协同设计实现的。

在架构方面,DeepSeek-V3仍然采用多头潜在注意力(MLA)以实现高效推理,并采用DeepSeekMoE以实现具有成本效益的训练。这两种架构已在DeepSeek-V2中得到验证,证明了它们在保持强大模型性能的同时实现高效训练和推理的能力。
除了基本架构之外,我们还实施了两项额外的策略来进一步增强模型能力。首先,DeepSeek-V3开创了一种无需辅助损失的负载均衡策略,旨在最大限度地减少因鼓励负载均衡而对模型性能产生的不利影响。
其次,DeepSeek-V3采用了多token预测训练目标,我们观察到该目标可以提高评估基准的整体性能。
为了实现高效训练,我们支持FP8混合精度训练,并对训练框架实施了全面的优化。低精度训练已成为高效训练的一种有前景的解决方案,其发展与硬件能力的进步密切相关。在这项工作中,我们引入了一个FP8混合精度训练框架,并首次在一个超大规模模型上验证了其有效性。通过FP8计算和存储的支持,我们实现了加速训练并减少了GPU的内存使用。
至于训练框架,我们设计了DualPipe算法以实现高效的流水线并行,该算法具有更少的流水线旗袍,并通过计算-通信重叠隐藏了训练期间的大部分通信。这种重叠确保了,随之模型的进一步扩展,只要我们保持恒定的计算-通信比例,我们仍然可以在跨节点使用细粒度的专家,同时实现接近于0的全互联通信开销。
此外,我们还开发了高效的跨节点全互联通信内核,以充分利用IB和NVLink带宽。
此外,我们还精心优化了内存占用,从而无需使用昂贵的张量并行即可训练DeepSeek-V3。

核心贡献

架构:创新的负载均衡策略和训练目标

在DeepSeek-V2的高效架构基础上,我们开创了一种无需辅助损失的负载均衡策略,最大限度地减少了因鼓励负载均衡而导致的性能下降;

我们研究了一种多token预测目标,并证明了它有利于模型性能。它还可以用于推理解码中的推测解码,以加速推理。

预训练:迈向极致的训练效率

我们设计了一个FP8混合精度训练框架,并首次在一个超大规模模型上验证了FP8训练的可行性和有效性。

通过算法、框架和硬件的协同设计,我们克服了跨节点MoE训练中的通信瓶颈,实现了接近完全的计算-通信重叠。这显著提高了我们的训练效率并降低了训练成本,使我们能够在不增加额开销的情况下进一步扩展模型规模;

仅以266.4万H800 GPU小时的经济成本,我们就完成了DeepSeek-V3在14.8万亿token上的预训练,产生了目前最强大的开源基础模型。预训练之后的后训练阶段仅需要10万GPU小时。

后训练:来自DeepSeek-R1的知识蒸馏

我们引入了一个创新的方法,将推理能力从长链式思维(CoT)模型提炼到标准LLM中,特别是DeepSeek-V3。我们的管道巧妙地将R1的验证和反思模式融入到DeepSeek-V3中,并显著提高了其推理性能。同时,我们也保持对DeepSeek-V3输出风格和长度的控制。

模型效果


53AI,企业落地应用大模型首选服务商

产品:大模型应用平台+智能体定制开发+落地咨询服务

承诺:先做场景POC验证,看到效果再签署服务协议。零风险落地应用大模型,已交付160+中大型企业

联系我们

售前咨询
186 6662 7370
预约演示
185 8882 0121

微信扫码

与创始人交个朋友

回到顶部

 
扫码咨询