微信扫码
添加专属顾问
我要投稿
打破AI技术壁垒,DeepSeek-R1引领开源大模型新纪元。 核心内容: 1. DeepSeek-R1的三大突破:破闭源圈、破对中国AI封锁圈、破大厂圈 2. DeepSeek-R1在学术研究和工程应用的深远影响 3. DeepSeek-R1如何降低训练成本,助力中小企业参与AI革命
通过数据筛选(s1k数据集)和预算强制技术,以50美元成本在Qwen2.5-32B基座上复现了高性能推理模型,验证了小样本微调的潜力
主导机构:斯坦福李飞飞团队
论文:s1: Simple test-time scaling - arxiv:https://arxiv.org/abs/2501.19393
源码: https://github.com/simplescaling/s1
s1.1-32B
模型地址:https://huggingface.co/simplescaling/s1.1-32B 新模型,在25年2月份基于 Deepseek-R1 蒸馏的数据重新训练的模型
数据集:用 Deepseek-R1 蒸馏的数据集: https://huggingface.co/datasets/simplescaling/s1K-1.1 训练 s1.1-32B 对应的数据集
训练日志:https://wandb.ai/hashimoto-group/o1/runs/m1ilia77/overview
s1-32B
模型地址: https://huggingface.co/simplescaling/s1-32B 旧模型,发论文时的模型
数据集:用 Gemini Thining 蒸馏的数据集:https://huggingface.co/datasets/simplescaling/s1K 发论文时的数据集,训练 s1-32B 对应的数据集
训练日志:未公开
评估工具:GitHub - EleutherAI/lm-evaluation-harness: A framework for few-shot evaluation of language models.:https://github.com/EleutherAI/lm-evaluation-harness
系统性复现DeepSeek-R1全流程,开源了220k数学推理数据集和代码生成框架OlympicCoder,推动了透明化RL训练与多领域泛化
主导机构:HuggingFace
源码:Open R1 - A fully open reproduction of DeepSeek-R1 :https://github.com/huggingface/open-r1
数据:https://huggingface.co/datasets/bespokelabs/Bespoke-Stratos-17k
模型:
OpenR1-Qwen-7B: https://huggingface.co/open-r1/OpenR1-Qwen-7B
Bespoke-Stratos-32B:https://huggingface.co/bespokelabs/Bespoke-Stratos-32B
Bespoke-Stratos-7B:https://huggingface.co/bespokelabs/Bespoke-Stratos-7B
评估工具:https://github.com/huggingface/lighteval
OpenThoughts的首要目标是精心整理一个推理数据集,用于训练最先进的小型推理模型,使其在数学和代码推理基准测试中超越 “DeepSeek-R1-Distill-Qwen-32B” 和 “DeepSeek-R1-Distill-Qwen-7B” 模型。用其训练的OpenThinker-32B模型,在AIME24数学竞赛等基准测试中得分接近DeepSeek-R1-Distill-32B(仅用1/8数据量),验证了其有效性
主导机构:斯坦福、UC伯克利
源码:https://github.com/open-thoughts/open-thoughts
数据集:https://huggingface.co/datasets/open-thoughts/OpenThoughts-114k
模型:
OpenThinker-32B:https://huggingface.co/open-thoughts/OpenThinker-32B
OpenThinker-7B:https://huggingface.co/open-thoughts/OpenThinker-7B
通过仅 817 条高质量训练样本激活大语言模型预训练阶段编码的数学与逻辑知识,在 AIME(57.1%)和 MATH(94.8%)等基准上实现显著性能提升,并验证了“少即是多”假设——复杂推理能力可通过少量精准设计的“认知模板”高效激发,而非依赖大规模数据堆叠。
主导机构:上海交大
源码: https://github.com/GAIR-NLP/LIMO 里面给出了完整的训练过程以及评估工具
论文:https://arxiv.org/abs/2502.03387
模型:https://huggingface.co/GAIR/LIMO
数据集:https://huggingface.co/datasets/GAIR/LIMO
提出了迭代式上下文扩展策略,用4500美元在1.5B小模型上复现了RL训练效果,超越o1-preview并开源了全流程代码
主导机构:UC伯克利
主页:Notion – The all-in-one workspace for your notes, tasks, wikis, and databases:https://pretty-radio-b75.notion.site/DeepScaleR-Surpassing-O1-Preview-with-a-1-5B-Model-by-Scaling-RL-19681902c1468005bed8ca303013a4e2
源码: https://github.com/agentica-project/deepscaler
模型:https://huggingface.co/agentica-org/DeepScaleR-1.5B-Preview
数据:
huggingface 上的 DeepScaleR-Preview-Dataset: https://huggingface.co/datasets/agentica-org/DeepScaleR-Preview-Dataset
github中的数据:https://github.com/agentica-project/deepscaler/tree/main/deepscaler/data
训练日志:https://wandb.ai/mluo/deepscaler-1.5b
团队主页:https://agentica-project.com/
尽管许多开源工作尝试在 72B 或更小规模的模型上复现 DeepSeek-R1,但 没有一款模型能在高难度数学竞赛 AIME24 上达到与 DeepSeek-R1-Distill-Qwen-32B(72.6 分)相当的性能。但 Light-R1-32B 做到了这一点。该模型从 Qwen2.5-32B-Instruct 训练而来,在 AIME24 上取得了 76.6 分的成绩。
主导机构:奇虎360
源码:https://github.com/Qihoo360/Light-R1
模型地址:https://huggingface.co/qihoo360/Light-R1-32B
论文:Light-R1: Curriculum SFT, DPO and RL for Long COT from Scratch and Beyond:https://arxiv.org/abs/2503.10460
数据集:
SFTData:https://huggingface.co/datasets/qihoo360/Light-R1-SFTData
DPOData:https://huggingface.co/datasets/qihoo360/Light-R1-DPOData
评估:基于DeepScaleR的评估代码
训练工具:https://github.com/Qihoo360/360-LLaMA-Factory
DAPO算法(Decoupled Clip and Dynamic sAmpling Policy Optimization)是字节跳动与清华大学联合研发的强化学习框架,核心创新包括:
* Clip-Higher策略:解耦裁剪范围,缓解策略熵坍缩问题;
* 动态采样机制:根据奖励分布动态调整采样数量,提升效率;
* Token级策略梯度损失:细化长思维链的关键步骤优化;
* 过载奖励调整:过滤冗余推理路径。
成果:基于Qwen2.5-32B模型,DAPO在AIME 2024测试中以50分超越DeepSeek GRPO(47分),训练步数减少50%,开源代码与数据集推动RL训练透明化。
基本信息:
主导机构:字节跳动与清华大学
主页:https://dapo-sia.github.io/
论文:DAPO: An Open-Source LLM Reinforcement Learning System at Scale:https://arxiv.org/abs/2503.14476
源码:https://github.com/bytedtsinghua-sia/dapo 目前只放了报告和论文
训练源码:https://github.com/volcengine/verl/tree/gm-tyx/puffin/main/recipe/dapo
数据集:
训练集:https://huggingface.co/datasets/BytedTsinghua-SIA/DAPO-Math-17k
验证集:https://huggingface.co/datasets/BytedTsinghua-SIA/AIME-2024
53AI,企业落地大模型首选服务商
产品:场景落地咨询+大模型应用平台+行业解决方案
承诺:免费场景POC验证,效果验证后签署服务协议。零风险落地应用大模型,已交付160+中大型企业
2025-03-26
17.1K star!两小时就能训练出专属于自己的个性化小模型,这个开源项目让AI触手可及!
2025-03-26
硬核,字节一口气开源了两个类Manus智能体项目
2025-03-26
解密Manus:MCP协议让人人都能构建智能Agent
2025-03-25
首发!优刻得云平台上新DeepSeek-V3-0324模型
2025-03-25
仅3步!即刻拥有 QwQ-32B,性能比肩全球最强开源模型
2025-03-25
万卡集群真实部署,已节省数百万 GPU 小时!MoE 通信优化技术 COMET 开源
2025-03-25
阿里开源 Qwen2.5-VL-32B:小模型,大能量
2025-03-25
DeepSeek V3-0324 模型更新分析报告,被我和AI协作的9张图总结了
2025-01-01
2024-07-25
2025-01-21
2024-05-06
2024-09-20
2024-07-20
2024-06-12
2024-08-13
2024-07-11
2024-12-26
2025-03-25
2025-03-25
2025-03-24
2025-03-22
2025-03-19
2025-03-17
2025-03-17
2025-03-13