微信扫码
添加专属顾问
我要投稿
洞悉DeepSeek背后的技术革新与发展历程。 核心内容: 1. DeepSeek公司成立背景及资本实力 2. DeepSeek公司模型发展历程及重要里程碑 3. DeepSeek LLM模型核心特性及开源信息
**DeepSeek公司 **成立于2023年7月17日,中文名字全称是 杭州深度求索人工智能基础技术研究有限公司 ,由知名量化基金公司 幻方量化 创立(注册总资本1000万,幻方量化的创始人梁文锋占了1%的持股比例)。DeepSeek 作为一家创新型科技公司,成立以来专注于开发先进的大语言模型(LLM)和相关技术,作为大厂外唯一一家储备万张 A100 芯片的公司,幻方量化为DeepSeek的技术研发提供了强大的硬件支持。
幻方量化 公司由三名毕业于浙江大学的工程师(其中就包括梁文锋)于2015年创立,是一家总部位于中国浙江省杭州市的对冲基金、量化基金和人工智能公司。2017年幻方量化开始基于机器学习进行交易,并宣称实现投资策略全面AI化。此后的2023年7月创立DeepSeek 公司,所以说DeepSeek 公司是幻方量化公司的子公司。
此章节按照时间顺序阐述DeepSeek公司发布的重要模型的概述信息。后面有单独的章节把DeepSeek-V3及DeepSeek-R1模型的概述、特征、模型下载等进行说明。此章节部分内容来自百度百科。
2024年1月5日,发布第一个模型DeepSeek LLM。此模型包含670亿参数,在一个包含2万亿token的数据集上进行了训练,数据集涵盖中英文。为了促进研究社区,公司全部开源了DeepSeek LLM 7B/67B Base和DeepSeek LLM 7B/67B Chat。DeepSeek LLM的主要特征有如下:
其他详细介绍参考:DeepSeek-LLM的代码仓库
2024年1月25日,发布DeepSeek-Coder,DeepSeek Coder由一系列代码语言模型组成,每个模型均从零开始在2万亿token上训练,数据集包含87%的代码和13%的中英文自然语言。代码模型尺寸从1B到33B版本不等。DeepSeek Coder在多种编程语言和各种基准测试中达到了开源代码模型的最先进性能。DeepSeek LLM的主要特征有如下:
其他详细介绍参考:DeepSeek-Coder的代码仓库
2024年2月5日,发布DeepSeekMath,DeepSeekMath以DeepSeek-Coder-v1.5 7B为基础,继续在从Common Crawl中提取的数学相关token以及自然语言和代码数据上进行预训练,训练规模达5000亿token。DeepSeekMath 7B在竞赛级MATH基准测试中取得了51.7%的优异成绩,且未依赖外部工具包和投票技术,接近Gemini-Ultra和GPT-4的性能水平。
其他详细介绍参考:DeepSeek-Math的代码仓库
2024年3月11日,发布DeepSeek-VL。DeepSeek-VL 是一个开源的视觉语言模型,专为现实世界的视觉和语言理解应用而设计。DeepSeek-VL具有通用的多模态理解能力,能够处理逻辑图、网页、公式识别、科学文献、自然图像和复杂场景下的具身智能,同时保持相对较低的计算开销。DeepSeek-VL系列(包括1.3B和7B模型)在相同模型尺寸下,在广泛的视觉-语言基准测试中达到了最先进或可竞争的性能。
其他详细介绍参考:DeepSeek-VL的代码仓库
2024年5月7日,发布第二代开源Mixture-of-Experts(MoE)模型——DeepSeek-V2。DeepSeek-V2是一个强大的混合专家(MoE)语言模型,以经济高效的训练和推理为特点。它包含2360亿个总参数,其中每个token激活210亿个参数。与DeepSeek 67B相比,DeepSeek-V2不仅实现了更强的性能,同时还节省了42.5%的训练成本,将KV缓存减少了93.3%,并将最大生成吞吐量提升至5.76倍。DeepSeek-V2是在一个包含8.1万亿token的多样化且高质量的语料库上进行的预训练。在完成全面的预训练后,通过监督微调(SFT)和强化学习(RL)进一步释放了模型的潜力。评估结果验证了方法的有效性,DeepSeek-V2在标准基准测试和开放式生成评估中均取得了显著的表现。 DeepSeek V2模型因在中文综合能力评测中的出色表现,且以极低的推理成本引发行业关注,被称为“AI界的拼多多”。
其他详细介绍参考:DeepSeek-V2的代码仓库
2024年6月17日,发布DeepSeek-Coder-V2,DeepSeek-Coder-V2是一个开源的混合专家(MoE)代码语言模型,在代码特定任务中达到了与GPT4-Turbo相当的性能。DeepSeek-Coder-V2是从DeepSeek-V2的一个中间检查点开始,进一步预训练了额外的6万亿token,显著增强了DeepSeek-V2的编码和数学推理能力,同时在通用语言任务中保持了相当的性能。并在代码相关任务、推理能力和通用能力等多个方面都取得了显著进步。此外,DeepSeek-Coder-V2将支持的编程语言从86种扩展到338种,并将上下文长度从16K扩展到128K。在标准基准测试中,DeepSeek-Coder-V2在编码和数学基准测试中表现优异,超越了GPT4-Turbo、Claude 3 Opus和Gemini 1.5 Pro等闭源模型。
其他详细介绍参考:DeepSeek-Coder-V2的代码仓库
2024年12月13日,发布用于高级多模态理解的专家混合视觉语言模型——DeepSeek-VL2,DeepSeek-VL2是一个先进的大型混合专家(MoE)视觉-语言模型系列,相较于其前身DeepSeek-VL有了显著改进。DeepSeek-VL2在多种任务中展现了卓越的能力,包括但不限于视觉问答、光学字符识别、文档/表格/图表理解以及视觉定位。模型系列由三个变体组成:DeepSeek-VL2-Tiny、DeepSeek-VL2-Small和DeepSeek-VL2,分别具有10亿、28亿和45亿激活参数。与现有的开源密集模型和基于MoE的模型相比,DeepSeek-VL2在相似或更少的激活参数下实现了具有竞争力或最先进的性能。
其他详细介绍参考:DeepSeek-VL2的代码仓库
2024年12月26日晚,DeepSeek公司正式上线全新系列模型 DeepSeek-V3 首个版本并同步开源。
后面将有一个单独的章节对此模型做一个详细的介绍。
2025年1月20日,DeepSeek正式发布 DeepSeek-R1 模型,并同步开源模型权重。
后面也有一个单独的章节对此模型做一个详细的介绍。
2025年1月28日凌晨,DeepSeek 在 GitHub 上的 Janus 项目空间官宣开源了 Janus-Pro 模型和技术报告。
DeepSeek-Janus-Pro的特征如下:
其他详细介绍参考:Janus的代码仓库
2024年12月26日晚,DeepSeek公司正式上线全新系列模型 DeepSeek-V3 首个版本并同步开源。
论文下载查看:https://github.com/deepseek-ai/DeepSeek-V3/blob/main/DeepSeek_V3.pdf 或 https://arxiv.org/abs/2412.19437 。
以下关于DeepSeek-V3模型的阐述,来看DeepSeek-V3的github仓库内容的翻译。
是一个强大的专家混合(MoE)语言模型,具有671B个总参数,每个令牌激活37B个参数。为了实现高效的推理和低成本的训练,DeepSeek-V3采用了多头潜注意(MLA)和DeepSeekMoE架构,这两种架构在DeepSeek-V2中得到了充分的验证。此外,DeepSeek-V3开创性提出以下两点:无辅助损失策略、多令牌预测。DeepSeek-V3在14.8万亿个不同的高质量令牌上进行了预训练,然后进行监督微调和强化学习。据DeepSeek官网所述:综合性实验评估表明,DeepSeek-V3优于其他开源模型,并实现了与领先的闭源模型相当的性能。而实现如此优异性能的条件是,DeepSeek-V3的完整训练只花费了 278.8 m H800 GPU小时。此外,DeepSeek-V3的训练过程非常稳定,在整个训练过程中没有经历任何不可恢复的损失峰值或执行任何回滚。
从下图(来自DeepSeek-V3在github上的代码仓库)可以看出,DeepSeek-V3在知识类任务(MMLU, MMLU-Pro, GPQA, SimpleQA)上的水平相比前代 DeepSeek-V2.5显著提升,接近当前表现最好的由Anthropic公司于10月发布的模型Claude-3.5-Sonnet-1022。在美国数学竞赛(AIME 2024, MATH)上,DeepSeek-V3很大程度地超过了其他所有开源闭源模型。在codeforces测评中,DeepSeek-V3大幅超过其他模型。另外,在生成速度上,DeepSeek-V3的生成吐字速度从20TPS(Transactions Per Second)大幅提高至60TPS,相比V2.5模型实现了3倍的提升,能够带来更加流畅的使用体验。
DeepSeek-V3开创了一种无辅助损失的负载平衡策略,并为更强性能设置了多tokens预测训练目标。
通过引入一种创新的方法,从长思维链模型(特别是DeepSeek-R1系列模型中的某个)蒸馏与提取推理能力到普通的LLMs(大语言模型,此处特指DeepSeek-V3)。在整个后训练工作流程中,通过优雅地将DeepSeek-R1的验证与反思模式集成到DeepSeek-V3 中,显著地提升了DeepSeek-V3 的推理性能。与此同时,DeepSeek-V3 的输出风格与输出长度仍处于可控范围内。
Model | #Total Params | #Activated Params | Context Length | Huggingface 下载 | |
? Hugging Face | modelscope | ||||
? Hugging Face | modelscope |
参考:https://github.com/deepseek-ai/DeepSeek-V3?tab=readme-ov-file#4-evaluation-results
2025年1月20日,DeepSeek正式发布 DeepSeek-R1 模型,并同步开源模型权重。DeepSeek-R1在后训练阶段大规模使用了强化学习技术,在仅有极少标注数据的情况下,极大提升了模型推理能力。 DeepSeek-V3和DeepSeek-R1两款模型,成本价格低廉,性能与OpenAI-O1模型相当,引起了包括美国硅谷在内的多家知名顶尖AI公司的震惊与兴趣。
论文下载查看:https://github.com/deepseek-ai/DeepSeek-R1/blob/main/DeepSeek_R1.pdf 或 https://arxiv.org/pdf/2501.12948 。
以下关于DeepSeek-R1模型的阐述,来自DeepSeek-R1的github仓库内容的翻译。
DeepSeek-R1-Zero 与 DeepSeek-R1这两个模型是同时开源的,DeepSeek-R1-Zero 是 DeepSeek-R1的基础。
DeepSeek-R1-Zero模型是一个没有事先进行任何(supervised fine-tuning,SFT)监督微调而只通过大规模强化学习(einforcement learning,RL)训练得到的模型,最终结果证明DeepSeek-R1-Zero模型展示了卓越的推理能力。但事实上,DeepSeek-R1-Zero模型并不是十全十美,它也有一些显著的不足比如无穷止的重复、糟糕的可读性、语言混合输出等。为了解决这些不足并进一步强化推理能力与提升性能,DeepSeek-R1被训练出来。DeepSeek-R1通过引入强化学习前的冷启动数据和多阶段训练流程,不仅解决前述部分问题,而且最终达到在数学、编码、推理等任务上与`OpenAI-o1-1217 模型相媲美的水平。
为了对研究社区进行支持,DeepSeek 在开源了DeepSeek-R1-Zero 与 DeepSeek-R1这两个模型的同时,DeepSeek公司在DeepSeek-R1模型生成的样本数据的基础上对Llama或Qwen模型进行了微调与蒸馏,最终产生了6个性能卓越的蒸馏模型并且它们也被开源推出。其中蒸馏模型DeepSeek-R1-Distill-Qwen-32B
在多项基准测试中的表现超过了OpenAI-o1-mini
,不失为一个性能卓著的稠密模型(DeepSeek公司自己的评价。单从基准测试结果上来看,确实是这样)。
从下图(来自DeepSeek-R1在github上的代码仓库)可以看出,DeepSeek-R1在知识类任务(MMLU, MMLU-Pro, GPQA, SimpleQA)上的水平相比前面的最强模型 DeepSeek-V3 稍有提升,超过其他绝大多数模型,略逊于当前表现最好的由openai公司于前一年12月发布的模型OpenAI-o1-1217。在美国数学竞赛(AIME 2024, MATH)上,DeepSeek-R1超过所有开源闭源模型,略胜于OpenAI-o1-1217。在codeforces测评即编码相关的任务中,DeepSeek-R1在代码竞赛任务中表现出专家水平,获得了2029 Elo评级,在竞赛中表现优于96.3%的人类参与者,超过其他绝大多数模型。对于工程相关的任务(SWE-bench Verified),DeepSeek-R1的表现略优于OpenAI-o1-1217。
Model | #Total Params | #Activated Params | Context Length | Huggingface 下载 | |
? HuggingFace | modelscope | ||||
? HuggingFace | modelscope |
DeepSeek-R1-Zero 与 DeepSeek-R1 都是从DeepSeek-V3-Base 这一模型训练而来.
Model | Base Model | Huggingface 下载 | |
Qwen2.5-Math-1.5B | ? HuggingFace | modelscope | |
Qwen2.5-Math-7B | ? HuggingFace | modelscope | |
Llama-3.1-8B | ? HuggingFace | modelscope | |
Qwen2.5-14B | ? HuggingFace | modelscope | |
Qwen2.5-32B | ? HuggingFace | modelscope | |
Llama-3.3-70B-Instruct | ? HuggingFace | modelscope |
上述 DeepSeek-R1-Distill-XXX 这些都是对同等参数规模的DeepSeek-R1 进行微调与蒸馏而得到的,它们(这些蒸馏模型)使用的数据都是由DeepSeek-R1 生成的。在微调与蒸馏出模型时,它们的配置与tokenizers都有被或多或少的改变过,使用这些模型时需要注意。
参考:https://github.com/deepseek-ai/DeepSeek-R1?tab=readme-ov-file#4-evaluation-results
2024年12月份,雷军以千万级薪酬招揽DeepSeek核心研究员、95后AI天才罗福莉。期望她能领军小米AI大模型团队的发展。
2025年1月27日,DeepSeek应用登顶苹果美国地区应用商店免费APP下载排行榜,在美区下载榜上超越了ChatGPT。同日,苹果中国区应用商店免费榜显示,DeepSeek成为中国区第一。
DeepSeek横空出世激起千层浪。近日,金山云、荣耀手机、东风汽车等纷纷宣布接入DeepSeek。部分名单与细节参考: DeepSeek真香!三大运营商、商汤等已接入,名单还在扩大 。最终结果让市场来检验。
DeepSeek-V3及DeepSeek-R1爆火后,国产加速卡厂商如华为昇腾、壁仞科技、天数智芯、摩尔线程、龙芯中科、昆仑芯等纷纷加速适配DeepSeek。最终结果让市场来检验。
53AI,企业落地大模型首选服务商
产品:场景落地咨询+大模型应用平台+行业解决方案
承诺:免费场景POC验证,效果验证后签署服务协议。零风险落地应用大模型,已交付160+中大型企业
2025-04-17
OpenAI发布o3与o4-mini,还开源两个项目
2025-04-17
OpenAI开源的Codex CLI是什么?
2025-04-17
社区供稿 | 3700 次预训练总结超参规律,开源海量实验,告别盲猜
2025-04-17
好用的开源Agent框架概览与比较分析
2025-04-17
OpenAI开源超火Agent,5小时破5000颗星,霸榜Github
2025-04-17
复刻小智AI,ESP32-S3搭建Arduino+ESP-SR+ESP-TTS开发环境踩坑记录
2025-04-17
openai-python v1.74.0 震撼发布!GPT-4.1 家族来袭,开发者必看更新解析!
2025-04-16
吩咐 AI 帮我一键运行万星 Github 项目
2025-01-01
2024-07-25
2025-01-21
2024-05-06
2024-09-20
2024-07-20
2024-06-12
2024-07-11
2024-08-13
2024-12-26
2025-04-17
2025-04-15
2025-04-13
2025-04-10
2025-04-07
2025-04-03
2025-04-03
2025-04-03