我要投稿

7G显存，训练你自己的DeepSeek-R1

发布日期：2025-02-17 15:02:02 浏览次数： 1914 作者：newtype AI

用DeepSeek的方法做微调，可以显著提升传统模型的思考能力。

这是我训练好的模型文件，已经传到Hugging Face上了，大家自取。它是基于Qwen2.5 3B，通过微调加强了数学能力，最后生成了Q4、Q5和Q8三个版本。咱们来对比一下Q4精度的效果。我问一个经典问题：

9.9和9.11这两个数字，哪个更大？

先来看原版的回答。不仅答案错了，而且给的理由也是完全混乱的——什么叫“小数部分相同，唯一的区别在于十分位”，简直胡说八道嘛。

再来看微调版本。这就正常了。整数部分一样，那就比较小数部分。很自然就得出9.9比9.11更大。

这套东西不是我搞出来的，而是Unsloth的成果。他们前些天发了一篇博客，介绍了方法，还给出了代码。简单来说，Unsloth这套东西实现了两点：

第一，微调门槛下降。像1.5B之类的小尺寸模型，只需要7G显存就可以微调。而7B、14B这种，15G显存就OK。也就是说，用消费级的PC就能微调。如果是用云端的算力，像我用Google Colab的T4 GPU，花了一个小时就顺利完成。

第二，模型能力提升。GRPO是一种强化学习算法，是DeepSeek发明并开源出来的。用这套算法和数据集，能够训练出具备更强推理能力和更好可解释性的模型。现在Unsloth把它应用到微调里边，想象空间一下就出来了。举个例子：

私域模型。

一个商业博主，有自己的方法论，也有很多交付案例。他把过往积累下来的东西整理成数据集，包含问题、答案以及解题步骤。然后用Unsloth这套东西去微调，生成3B的模型。最后，把模型文件给到他的用户，不管是免费还是收费都可以。

用户拿到之后，用我上上期介绍的方法在手机上使用。这意味着，用户可以随时随地、不需要联网地跟这位博主的AI分身交流。

对自媒体来说，以前只有在你发视频、发文章的时候，或者你在群里说话的时候，你的粉丝、用户才能接收到你的信息。现在，有了这个方法，他们可以无限制地被你这个IP影响。

之前我分享手机上跑模型的方法，一堆人喷我说没意义、没价值。说句扎心的话：眼界太浅，活该挣不着钱。

哈喽大家好，欢迎来到我的频道。谦虚地说啊，我是国内少数几个能把关于AI的Why和How讲明白的博主。我提供的东西比教程更值钱。记得点一波关注。如果想链接我，就来newtype社群。已经有800多位小伙伴付费加入啦！

回到今天的主题：用强化学习算法，微调模型。

在介绍Unsloth的工具之前，我还是得先把基本概念用一种通俗易懂的方式讲给你们听。可能不是很严谨，但是包懂。

以前搞强化学习，需要准备大量包含解题步骤的高质量数据，以及非常精确、绝对的奖励函数。然后大力出奇迹，硬生生把模型给培训出来。

后来DeepSeek发现，其实不需要那么高的成本，搞得那么费劲——可以把奖励函数弄得更灵活一些嘛。针对每一个问题，它让模型生成一组答案。然后看这一组答案里边，哪个答案相对好一些，从而给出奖励。

传统方法，比较像我们以前在学校里接受的填鸭式教学，靠着记忆力去刷题，想要蒙混过关。但是，这种搞法，知其然而不知其所以然，所以最后还是个渣渣。而DeepSeek的方法则是反复思考解题步骤，最后不仅知其然而且还知其所以然。于是，模型“顿悟”了，学霸诞生了。

如果还是不太明白，那我再打个比方。传统方法训狗，需要明确定义每个动作，并且给每个动作都设计奖励。只有当狗完全按照指令完成动作时，才能获得奖励。

而DeepSeek的方法是，一个动作让狗做三次。在三次当中，相对较好的那一次获得奖励。然后不断重复这个过程。

大家如果有养狗经历就知道，用DeepSeek的这种训练方法，主人轻松，狗子开心，效果也好。

DeepSeek很大方地分享出来之后，Unsloth就拿来用了。不过在使用之前，有一些限制需要跟大家说清楚：

你拿来微调的模型不能太小了，至少也得有1.5B，不然没法正确生成思考标记。这是我选择用3B尺寸的原因，既符合训练的要求，也能在手机上运行。另外，步数至少要300步，奖励才会真正增加。为了达到良好的效果，建议至少训练12个小时。

在官方给的示例当中，用的数据集是GSM8K。它包含了8500个高质量的小学数学文字题。每个问题需要2到8个步骤才能解决。而且，这个数据集里的解题方法是用自然语言编写，而非纯粹的数学表达式。所以，用它来训练，能够提升模型的多步骤数学推理。

类似GSM8K的数据集还有好几个，比如MATH Dataset、MathQA等等。我建议大家先别着急就导入自己的数据集，可以拿这些练练手。因为，换了数据集之后，由于格式不同、特点不同，奖励函数可能需要做相应的调整。

另外，超参数的调整也需要大量实践。比如：

学习率，用来控制模型学习的速度。设得太高，模型可能学得太快，错过最优解；设得太低，模型可能学得太慢，浪费时间。

Batch size，指的是每次喂给模型的数据量。设得太大，可能会导致内存不足；设得太小，可能导致模型学习不稳定。

微调和RAG一样，都是看起来简单，但真要获得好的效果，需要大量调试。而且这东西没法教，只能“干中学”。但是，有门槛是好事。只要跨过去了，就能甩开一大堆人。

所以，我在Google Colab上买了一些计算单元，这段时间会做各种测试。至于数据集，我突然想到，过去一年我在星球里回答了好多好多问题。这些问题都可以做转换，比如让模型帮我批量处理，然后放进数据集里。

通过微调打造AI分身、训练私域模型的想法，在我去年做Llamafile那期视频的时候就出现了。现在可能性越来越大了。

53AI，企业落地大模型首选服务商

产品：场景落地咨询+大模型应用平台+行业解决方案

承诺：免费场景POC验证，效果验证后签署服务协议。零风险落地应用大模型，已交付160+中大型企业

相关资讯

2025-04-28

Trae 新版本增加 MCP、Agent、Rules 等多项功能，立即体验

2025-04-28

通用LLM插件系统——简化工具集成，提升2025年AI的灵活性

2025-04-27

演讲实录：中小企业如何快速构建AI应用？

2025-04-27

Cherry Studio v1.2.9:新增多个MCP特性

2025-04-27

为什么新手比专家更想做垂直领域SFT微调？

2025-04-27

使用MCP进行AI集成的6大理由

2025-04-27

大模型微调技术全景解析：从理论到企业级实践（Python实战增强版）

2025-04-27

主流 Embedding 模型对比

了解更多

160+中大型企业正在使用53AI

立即咨询预约演示

把握AI发展的机遇，共同探索、共同进步

2025-01-22

如何打造基于GenAI的员工服务机器人

2025-01-22

热点资讯

一文读懂DeepSeek-R1本地部署配置要求（建议收藏）

2025-02-04

DeepSeek R1 671B 完整版本地部署教程来了！！！

2025-02-04

太爽了！o1 现在可以天天享用了

2024-09-18

万字综述 10+ 种 LLM 投机采样推理加速方案

2024-07-11

微调神器LLaMA-Factory官方保姆级教程来了，从环境搭建到模型训练评估全覆盖

2024-07-09

FP8 低精度训练：Transformer Engine 简析

2024-07-11

彻底理解系列之：FP32、FP16、TF32、BF16、混合精度

2024-07-26

别被Deepseek低成本冲昏头！本地化部署后续的“甜蜜陷阱”，你真能扛住吗？

2025-02-05

ollama 部署 deepseek-r1 70B 模型完整指南

2025-01-27

o3-mini 完全指南：一个被 DeepSeek 破大防的模型

2025-02-01

大家都在问

演讲实录：中小企业如何快速构建AI应用？

2025-04-27

为什么新手比专家更想做垂直领域SFT微调？

2025-04-27

为什么全参数微调能让大模型从“通才”变“专才”？

2025-04-23

MCP vs Function Calling，该如何选？

2025-04-20

RAGFlow vs Dify, 商业化落地场景选哪个？

2025-04-01

如何利用Dify轻松构建你的专属语料库？

2025-03-31

从 0 到 1，Agentic Ops 如何打造企业级 AI 生产力？

2025-03-20

DeepSeek-R1的Qwen-32B蒸馏模型与QwQ-32B模型，谁更强？

2025-03-16

热门标签

内容创作大模型技术个人提效 langchain llamaindex 多模态技术 RAG技术智能客服知识图谱模型微调 RAGFlow coze Dify Fastgpt Bisheng Qanything AI+汽车 AI+金融 AI+工业 AI+培训 AI+SaaS 提示词框架提示词技巧 AI+电商 AI面试数字员工 ChatBI 知识管理开源大模型智能营销智能硬件智能化改造 AI+医疗 MaxKB