AI知识库

53AI知识库

学习大模型的前沿技术与行业应用场景


回应DeepSeek抄袭的质疑,DeepSeek和OpenAI ChatGPT的比较
发布日期:2025-02-01 08:27:50 浏览次数: 2508 来源:AI人工智能基地
推荐语

回应抄袭质疑,揭示DeepSeek与OpenAI ChatGPT的区别和创新点。

核心内容:
1. DeepSeek训练方法与OpenAI API数据无关,采用开源数据和自学习技术
2. DeepSeek技术创新与开源贡献,对大模型训练速度和产业格局的影响
3. DeepSeek的颠覆性创新,对比OpenAI ChatGPT,包括FP8训练优化和推理端兼容性

杨芳贤
53A创始人/腾讯云(TVP)最具价值专家

先直接回答质疑

质疑1:DeepSeek是通过OpenAI的API进行训练的,盗取了OpenAI的数据

回答:不是,DeepSeek训练是采用了开源大模型的数据,并进行RL自对齐自学习进行训练。假如通过API调用获取的数据,因为存在幻觉,会有很多不可靠的结果,并不会让大模型变得更加聪明。

质疑2:DeepSeek是采用5万张偷运显卡进行训练的,存在着显卡欺骗行为

回答:技术论文已经发表了,相关模型也开源了,论文也发布了,技术专家都在学习,应该过不了多久就会出现不少复制的产品。到时候业界的大模型训练速度由过去的一年提升到2个月以内,甚至显卡多的可以半个月发布一个大版本,将会改写大模型更新慢,推理慢的现状,到时候大家要感谢DeepSeek的贡献,将模型训练推进到一个新的高度。

质疑3:DeepSeek是过于夸大了,没有多大的创新

回答:DeepSeek的创新是颠覆性的,是OpenAI发布ChatGPT后的重要事件,将影响到大模型今后的发展,颠覆产业格局,让开源大模型接近头部的大模型公司,并超越了很多商业化的闭源大模型企业,并建立开源的产业生态。DeepSeek的FP8训练优化,以及今后在推理端兼容多种芯片的格局会出现,从而将成本降低数倍,这是历史性突破。并能够基于DeepSeek生态发展,从软件方向驱动突破技术封锁等问题。

以下是通过技术论文,给大家科普的DeepSeek和OpenAI的不同和创新,介绍DeepSeek V3 和DeepSeek R1两个版本和OpenAI的不同,并解析数据如何训练的。

与OpenAI核心技术对比

  1. 混合专家模型(MoE)

  • 背景:MoE 架构并非 OpenAI 首创,早期研究如 Google 的 Switch Transformer(2021)已广泛应用,DeepSeekMoE 在此基础上优化了专家负载均衡和细粒度路由策略。

  • 创新点:DeepSeek 提出的 无辅助损失负载均衡 和 动态冗余专家部署 是其独特设计,未在 OpenAI 的模型中体现。

  • 注意力机制优化

    • MLA(Multi-head Latent Attention):通过低秩压缩 KV Cache 减少显存占用,与 OpenAI 的 稀疏注意力 或 FlashAttention 实现方式不同,属于独立优化路径。

    • 技术独立性:MLA 的具体实现(如分块压缩、解耦查询)在技术报告中详细说明,未发现与 OpenAI 专利技术重叠。

  • 多 Token 预测(MTP)

    • 通用性:多步预测是语言模型的常见训练目标(如 EagleStripedHyena),并非 OpenAI 专属。

    • DeepSeek 的改进:其 MTP 模块通过深度链式预测和共享参数设计,与 GPT-4 的推测解码(Speculative Decoding)在实现逻辑上存在显著差异。

  • 低精度训练与工程优化

    • FP8 训练:NVIDIA 的 Hopper 架构及开源框架(如 Transformer Engine)已支持 FP8,DeepSeek 通过分块量化和高精度累加进一步优化,属于行业通用技术。

    • DualPipe 算法:针对 MoE 的流水线并行优化,解决跨节点通信瓶颈,与 OpenAI 的 Megatron 或 ZeRO 策略不同。


    训练数据与对齐方法

    • 数据来源:DeepSeek 使用自建的多语言语料(14.8T Token),强调数学与代码数据的增强,与 OpenAI 的数据构造策略(如 WebText、代码合成)无直接关联。

    • 对齐技术:采用知识蒸馏(DeepSeek-R1)和自奖励机制,与 OpenAI 的 RLHF(基于人类反馈的强化学习)在方法论上分属不同范式。


    开源与合规性

    • 代码与模型公开:DeepSeek-V3 的模型架构、训练代码和部分数据已开源(GitHub),其技术实现透明,未发现直接复用 OpenAI 代码的痕迹。

    • 学术引用:技术报告中明确引用了相关领域的研究(如 Rotary Positional Embedding、GShard),符合学术规范。

    DeepSeek-V3 论文总结

    DeepSeek-V3 是由 DeepSeek-AI 推出的高效混合专家模型(MoE),总参数量达 671B,每个 token 激活 37B 参数。以下是其核心创新与关键成果:


    核心创新

    1. 高效架构设计

    • Multi-head Latent Attention (MLA):通过低秩压缩键值对(KV Cache),减少推理时的显存占用,同时保持性能。

    • DeepSeekMoE:采用细粒度专家(256 个路由专家 + 共享专家)和动态负载均衡策略,提升训练效率。

    • 无辅助损失负载均衡:通过动态调整专家偏置(Bias),避免传统辅助损失对模型性能的负面影响,显著提升专家利用率。

  • 多 Token 预测(MTP)

    • 在训练时预测未来多个 Token,增加训练信号密度,提升模型对长序列的规划能力,同时支持推理时的推测解码加速。

  • 低精度训练优化

    • 引入 FP8 混合精度框架,结合分块量化和高精度累加策略,首次验证了超大规模模型低精度训练的可行性,显著降低显存和通信开销。


    训练效率

    • 成本极低:完整训练仅需 278.8 万 H800 GPU 小时(约 557.6 万美元),预训练阶段每万亿 Token 消耗 18 万 GPU 小时。

    • 稳定性:全程无不可恢复的损失突增或回滚。

    • 工程优化

      • DualPipe 算法:通过计算-通信重叠,减少流水线气泡,提升并行效率。

      • 跨节点通信优化:结合 InfiniBand 和 NVLink 带宽,实现近零通信开销。


    性能表现

    1. 基准测试

    • MATH-500(90.2)、CNMO 2024(43.2)刷新非长链思维模型记录。

    • LiveCodeBench(40.5)和 Codeforces(51.6% 分位数)领先所有模型。

    • 知识任务:MMLU(88.5)、MMLU-Pro(75.9)、GPQA(59.1)超越所有开源模型,接近 GPT-4o 和 Claude-3.5-Sonnet。

    • 数学与代码

    • 中文能力:C-Eval(90.1)、C-SimpleQA(64.8)显著优于 Qwen2.5 等中文模型。

  • 长上下文支持

    • 通过 YaRN 扩展至 128K 上下文,在 LongBench v2(48.7)和 FRAMES(73.3)中表现优异。

  • 对齐与推理

    • 对齐效果:通过知识蒸馏(DeepSeek-R1)和自奖励机制,在 Arena-Hard(85.5% 胜率)和 AlpacaEval 2.0(70.0%)中超越多数闭源模型。

    • 推理加速:MTP 模块在推测解码中实现 85-90% 接受率,生成速度提升 1.8 倍。


    对比闭源模型

    • GPT-4o 与 Claude-3.5-Sonnet

      • 在数学、代码和中文任务上表现接近甚至超越,但在部分知识任务(如 SimpleQA)稍逊。

      • 训练成本仅为闭源模型的极小比例(如 GPT-4 训练成本估计数十亿美元)。


    局限与未来方向

    • 部署需求:推荐部署单元较大(预填充需 32 GPU,解码需 320 GPU),对小型团队不友好。

    • 未来改进:探索无限上下文支持、突破 Transformer 架构限制、提升深度推理能力。

    DeepSeek-V3 通过算法-框架-硬件的协同设计,在高效训练与强大性能间取得平衡,成为开源模型的新标杆,并为 AGI 的长期演进提供了重要参考。

                                      DeepSeek-R1论文总结

    DeepSeek-R1 是由 DeepSeek-AI 提出的基于强化学习(RL)的大语言模型系列,旨在提升模型的推理能力。以下是其核心内容总结:


    1. 模型概览

    • DeepSeek-R1-Zero

      • 训练方法:直接在基模型(DeepSeek-V3-Base)上应用大规模强化学习(GRPO 算法),无需监督微调(SFT)。

      • 特点:通过 RL 自主涌现出反思、多步推理等能力,在数学、编程等推理任务中表现优异(如 AIME 2024 Pass@1 从 15.6% 提升至 71.0%)。

      • 局限性:输出可读性差、语言混合(如中英文混杂)。

    • DeepSeek-R1

      • 改进方法:引入冷启动数据(数千条高质量长链思维示例)和多阶段训练(SFT + RL),进一步优化推理能力和输出规范性。

      • 性能:与 OpenAI-o1-1217 相当,在 MATH-500 上达到 97.3% Pass@1,Codeforces 评分超越 96.3% 的人类参赛者。


    2. 技术亮点

    • 强化学习算法(GRPO)

      • 通过组间评分估计基线,省去评论模型,降低训练成本(公式见论文)。

      • 奖励模型仅依赖规则(如答案准确性、格式一致性),避免神经奖励模型的奖励滥用问题。

    • 冷启动与多阶段训练

      • 冷启动数据:提升输出的可读性和初始稳定性,设计结构化模板(如 <think> 推理过程 + <answer> 答案)。

      • 两阶段 RL:首阶段专注于推理任务,第二阶段结合通用任务(写作、问答)优化对齐人类偏好。

    • 蒸馏小型模型

      • 将 DeepSeek-R1 的推理能力蒸馏至 1.5B 到 70B 的 Qwen 和 Llama 系列模型,效果显著(如 7B 模型在 AIME 2024 上超越 GPT-4o)。

      • 蒸馏模型性能优于直接对小模型应用 RL,证明大模型发现的推理模式对小模型至关重要。


    3. 性能对比

    • 推理任务

      • AIME 2024:DeepSeek-R1 Pass@1 达 79.8%,略超 OpenAI-o1-1217(79.2%)。

      • MATH-500:DeepSeek-R1 达 97.3%,与 OpenAI-o1-1217 持平。

      • Codeforces:Elo 评分 2029,超越 96.3% 人类选手。

    • 通用能力

      • MMLU:90.8% Pass@1,显著优于 DeepSeek-V3(85.2%)。

      • AlpacaEval 2.0:长度控制胜率 87.6%,展示强大的开放域问答能力。


    4. 开源贡献

    • 开源模型:

      • DeepSeek-R1-Zero、DeepSeek-R1 及基于 Qwen/Llama 的 6 个蒸馏模型(1.5B、7B、8B、14B、32B、70B)。

    • 数据与工具:

      • 发布 800K 训练样本(推理与非推理混合数据),支持社区进一步研究与蒸馏。


    5. 局限与未来方向

    • 当前局限

      • 语言混合(中英文以外语言的推理能力不足)。

      • 软件工程任务改进有限(因 RL 训练效率问题)。

    • 未来计划

      • 提升通用能力(如多轮对话、函数调用)。

      • 优化提示工程(当前对少样本提示敏感)。

      • 扩展多语言支持与异步 RL 训练。


    总结

    DeepSeek-R1 通过纯强化学习与多阶段训练,展示了 LLM 在自主推理能力上的突破,其性能与闭源模型竞争,并通过开源推动社区发展。未来迭代有望进一步缩小与顶尖模型的差距。


    53AI,企业落地大模型首选服务商

    产品:场景落地咨询+大模型应用平台+行业解决方案

    承诺:免费场景POC验证,效果验证后签署服务协议。零风险落地应用大模型,已交付160+中大型企业

    联系我们

    售前咨询
    186 6662 7370
    预约演示
    185 8882 0121

    微信扫码

    与创始人交个朋友

    回到顶部

     
    扫码咨询