AI知识库

53AI知识库

学习大模型的前沿技术与行业应用场景


2025·人人都该懂一点的AI基础技术-ChatGPT、DeepSeekR1是如何被训练出来的?

发布日期:2025-02-10 21:20:20 浏览次数: 1783 来源:杂良店
推荐语

深入浅出的AI技术入门指南,助你轻松跨过技术门槛,掌握时代脉搏。

核心内容:
1. AI技术普及的必要性与挑战
2. 大语言模型训练的预训练与后训练过程
3. ChatGPT R1-ZERO & Deepseek R1模型训练案例分析

杨芳贤
53A创始人/腾讯云(TVP)最具价值专家


写在前面。

一周前,伴随着deepseek惊艳全球,我写了一篇以小白文科生视角理解蒸馏技术的学习笔记《Deepseek鲨疯了,但90%的人都不知道它提到的蒸馏技术是什么》,没想到居然有4万多人看过了。这也让我意识到:AI 已然成为家喻户晓的热词,但却仍然有很多像我一样怀揣着强烈的求知欲,却被一道道技术门槛阻拦的人。 

互联网上当然也有很多非常棒的AI研究的学习资料,干货很多,但对于没有行业积累和技术背景的人来说确实很容易让人望而却步。就拿我自己来说,我也是在有意识的学习AI相关的知识半年后才能逐渐像现在这样用自己的语言体系理解它。 

当下我们每个人都身处AI时代的洪流之中,为了不被时代的浪潮无情吞没,掌握一点基础的 AI 技术知识,已然成为一种必要。所以,我决定持续更新相关内容,希望能为那些曾在 AI 技术名词的迷宫中迷失方向的朋友,搭建一座通俗易懂的知识桥梁。毕竟,了解,才是破除未知迷雾的最佳良方。 

当然,这些内容仍然只是我个人的学习笔记,不排除因为个人能力理解不到位甚至错误的地方。如果有懂行的大神发现了问题欢迎指正,不要把其他人带偏。 

 

⚪️ 

本次让我们先来了解一下大模型究竟是怎么被训练出来的。包含: 

  • 大语言模型的主要训练过程
  • 介绍几个top模型的训练过程
    • ChatGPT
    • R1-ZERO &Deepseek R1

看图说话:一图了解大模型的训练过程

大语言模型训练分为预训练后训练两个关键阶段。 

预训练阶段,模型就像独自探索知识宝库的冒险家,通过自监督学习,在海量数据中挖掘通用知识,比如语言规则、图像特征等。这个过程无需人工标注,完全靠模型自己 “自学”。最终产出 BERT、GPT 这类基础模型,它们有知识储备,但还需进一步打磨。 

后训练阶段决定模型能否实用,又大致为四部分: 

  • 微调:让模型适应具体任务,就像毕业生上岗要学岗位技能。有全参微调(调整所有参数)、高效微调(只调部分参数以节省资源)和领域迁移(从通用领域转向特定领域)。
  • 对齐:使模型符合人类价值观。像 RLHF 和 DPO,简单来说就是依据人类反馈训练模型,让其输出符合人类期望,如 ChatGPT 能和人顺畅交流。
  • 部署优化:提升效率、降低成本。模型压缩给模型 “瘦身”,减少参数量;知识蒸馏将大模型知识传授给小模型。
  • 持续学习:让模型学新知识还不忘旧知识。弹性权重固化保护重要参数,回放缓冲区存储旧数据用于复习。

经过这些流程,诞生了各种实用模型,如任务专用型、对齐后的、轻量级和能动态更新的模型,满足不同场景需求。

这样看来,大语言模型训练也没那么复杂吧? 

 


⚪️ 

了解了大致训练过程,我们以ChatGPT和DeepSeek 为例,探究一下它们的训练过程 

ChatGPT的训练过程

(这里解释一下,这里图上虽然较大比例画了后训练的过程,但其实预训练的训练时长是远远大于后训练的,不要因为图片呈现的比例误以为后训练的比例更多)

把大象放进冰箱里需要三步,把ChatGPT训练出来也只比放大象多一步而已。 

第一步:pretraning - 训练一个基础模型

这一步看似最简单但消耗的时间最长,几乎99%的时间都用在此阶段。给模型阅读海量的文本内容,让模型学习会在看到一个token的时候就能预测下一个token是什么。但这个时候训练出来的模型还不具备良好的对话能力。 

比如此时当你向模型询问“法国的首都是哪里?”,它可能会回答:“法国的首都是一个城市”、“中国的首都是哪里?”这样不符合预期的回答 

 

第二步:对第一步训练好的基础模型进行有监督的微调 - 训练出一个SFT模型

和第一步一样,训练的方法没有改变,只是更换的了数据集。此时的数据集变成了人类编写好的Q&A。通过这个步骤模型会拥有更好的对话能力。 

比如此时当你向模型询问“法国的首都是哪里?”,它可能会回答:“法国的首都是巴黎。”或者“巴黎是法国的首都。” 

 

第三步:训练一个奖励模型

用第二步训练出来的SFT模型做续写任务,让模型输出多个续写结果。 

比如“A:法国的首都是巴黎。巴黎是一个美丽的城市。”、“巴黎是法国的首都。巴黎也是法国的政治、经济和文化中心。” 

由人类标注员来对这些续写的质量进行评级。通过这个训练过程得出一个奖励模型,奖励模型拥有评估续写内容是否符合人类偏好的能力,并为高质量的回答分配更高的奖励值。 

 

第四步:持续循环的强化学习

用第二步训练好的SFT模型来对问题进行回答,再用第三步训练的奖励模型对回答的结果进行评分,通过评分的好坏来进行强化学习。一直重复2-4的步骤最终形成一个拥有强大续写能力的ChatGPT模型。 

 

DeepSeek R1 & R1-ZERO的训练过程

先说R1-ZERO 

 

R1-ZERO的特点就在于,它在预训练后跳过了SFT步骤,直接进行强化学习,并且只通过强化学习模型就已经涌现出了推理能力。但因为R1-ZERO因为没有经过微调和对齐的过程,所以它输出的内容效果可能并不是很符合人类理想的预期。 

比如此时当你向模型询问“法国的首都是哪里?”,它可能会用英文回答你。 

 

 

DeepSeek R1 

一句话说:R1模型是在预训练后用一批冷启动数据进行了微调,然后进行了强化学习。

1、预训练 (不展开了) 


2、基于预训练得出的模型(这里应该就是deepseekV3模型)进行冷启动微调。使用少量精心挑选的长思维链冷启动数据对其进行微调。这些数据就像是给模型的一些引导示例,帮助它初步学习到一些重要的思考和回答模式,比如如何进行搜索、纠错等,同时也让模型的语言表达更规范,避免出现混乱。 

冷启动的数据是由一批专家编写的主要是数学等理工科方面的包含了精心设计的长思维链数据。简单理解就是假设有一道数学题,这批冷启动数据不仅包含了答案,重要的是还有这道题一步一步的解题思路。


3、在像写代码、数学、逻辑推理等需要精确答案的推理任务方面开展强化学习。采用 GRPO 策略梯度强化学习算法,在训练时,模型会不断尝试生成回答。如果回答正确并且格式符合要求,比如先展示思考过程再给出最终答案,就会得到奖励;反之则会被引导改进。 

 

4、蒸馏。把在推理方面表现出色的模型所产生的数据,和从 DeepSeek V3 中抽取的通用领域(如聊天、角色扮演)的数据混合起来,用这些混合数据对 DeepSeek V3 进行重新微调,让模型在不同方面的能力更加均衡,既能处理专业的推理任务,也能应对日常的交流和表达。 

 

5、再对经过上述步骤得到的模型进行一轮全面的强化学习,进一步提升它在各个领域的性能,最终得到 DeepSeek R1 模型。 

53AI,企业落地大模型首选服务商

产品:场景落地咨询+大模型应用平台+行业解决方案

承诺:免费场景POC验证,效果验证后签署服务协议。零风险落地应用大模型,已交付160+中大型企业

联系我们

售前咨询
186 6662 7370
预约演示
185 8882 0121

微信扫码

添加专属顾问

回到顶部

 
扫码咨询