支持私有云部署
AI知识库

53AI知识库

学习大模型的前沿技术与行业应用场景


DeepSeek大模型新王|DeepSeek R1/R1-Zero开源来袭~

发布日期:2025-01-22 12:20:31 浏览次数: 2589 作者:AI技术研习社
推荐语

**内容简介**:DeepSeek V3 开源来袭,性能卓越,训练稳定且成本低,超越众多模型。

**内容大纲**:
1. DeepSeek V3 的架构与创新策略
2. 预训练及训练过程的优势
3. 与其他模型的性能对比及价格优势

杨芳贤
53A创始人/腾讯云(TVP)最具价值专家
DeepSeek-V3,这是一个强大的专家混合 (MoE) 语言模型,总共有 671B 个参数,每个令牌激活了 37B。
论文链接:https://github.com/deepseek-ai/DeepSeek-V3/blob/main/DeepSeek_V3.pdf
为了实现高效的推理和具有成本效益的训练,DeepSeek-V3 采用了多头潜在注意力 (MLA) 和 DeepSeekMoE 架构,这些架构在 DeepSeek-V2 中得到了全面验证。
此外,DeepSeek-V3 开创了一种用于负载均衡的辅助无损策略,并设定了多标记预测训练目标以获得更强的性能。我们在 14.8 万亿个多样化和高质量的代币上对 DeepSeek-V3 进行预训练,然后是监督微调和强化学习阶段,以充分利用其功能。
综合评估表明,DeepSeek-V3 的性能优于其他开源模型,并实现了与领先的闭源模型相当的性能。尽管性能出色,但 DeepSeek-V3 只需要 2.788M H800 GPU 小时即可进行完整训练。此外,它的训练过程非常稳定。在整个训练过程中,我们没有遇到任何无法恢复的损失峰值或执行任何回滚。
延续便宜大碗特点的基础之上,DeepSeek V3发布即完全开源,直接用了53页论文把训练细节和盘托出的那种。
怎么说呢,QLoRA一作的一个词评价就是:优雅。

具体来说,DeepSeek V3是一个参数量为671B的MoE模型,激活37B,在14.8T高质量token上进行了预训练。

在多项测评上,DeepSeek V3达到了开源SOTA,超越Llama 3.1 405B,能和GPT-4o、Claude 3.5 Sonnet等TOP模型正面掰掰手腕

其价格比Claude 3.5 Haiku还便宜,仅为Claude 3.5 Sonnet的9%。

在创建 API key 之后,你可以使用以下样例脚本的来访问 DeepSeek API。样例为非流式输出,您可以将 stream 设置为 true 来使用流式输出。
# Please install OpenAI SDK first: `pip3 install openai`
from openai import OpenAI
client = OpenAI(api_key="<DeepSeek API Key>", base_url="https://api.deepseek.com")
response = client.chat.completions.create(    model="deepseek-chat",    messages=[        {"role""system""content""You are a helpful assistant"},        {"role""user""content""Hello"},    ],    stream=False)
print(response.choices[0].message.content)
距离DeepSeek-V3开源不到一个月,DeepSeek刚刚又开源了全新推理模型DeepSeek R1、DeepSeek R1-Zero,全面提升推理能力,效果媲美o1。
DeepSeek-R1正式发布:API上线技术报告公开一口气开源了8个模型,DeepSeek-R1-Distill不要671B,最低只有1.5B7B, 8B, 14B, 32B, 和70),完全可以run起来~
DeepSeek-R1-Distill 模型的使用方式与 Qwen 或 Llama 模型相同。
例如,您可以使用 vLLM 轻松启动服务:
vllm serve deepseek-ai/DeepSeek-R1-Distill-Qwen-32B --tensor-parallel-size 2 --max-model-len 32768 --enforce-eager

53AI,企业落地大模型首选服务商

产品:场景落地咨询+大模型应用平台+行业解决方案

承诺:免费场景POC验证,效果验证后签署服务协议。零风险落地应用大模型,已交付160+中大型企业

联系我们

售前咨询
186 6662 7370
预约演示
185 8882 0121

微信扫码

添加专属顾问

回到顶部

加载中...

扫码咨询