微信扫码
添加专属顾问
我要投稿
深入浅出的AI技术入门指南,助你轻松跨过技术门槛,掌握时代脉搏。 核心内容: 1. AI技术普及的必要性与挑战 2. 大语言模型训练的预训练与后训练过程 3. ChatGPT R1-ZERO & Deepseek R1模型训练案例分析
一周前,伴随着deepseek惊艳全球,我写了一篇以小白文科生视角理解蒸馏技术的学习笔记《Deepseek鲨疯了,但90%的人都不知道它提到的蒸馏技术是什么》,没想到居然有4万多人看过了。这也让我意识到:AI 已然成为家喻户晓的热词,但却仍然有很多像我一样怀揣着强烈的求知欲,却被一道道技术门槛阻拦的人。
互联网上当然也有很多非常棒的AI研究的学习资料,干货很多,但对于没有行业积累和技术背景的人来说确实很容易让人望而却步。就拿我自己来说,我也是在有意识的学习AI相关的知识半年后才能逐渐像现在这样用自己的语言体系理解它。
当下我们每个人都身处AI时代的洪流之中,为了不被时代的浪潮无情吞没,掌握一点基础的 AI 技术知识,已然成为一种必要。所以,我决定持续更新相关内容,希望能为那些曾在 AI 技术名词的迷宫中迷失方向的朋友,搭建一座通俗易懂的知识桥梁。毕竟,了解,才是破除未知迷雾的最佳良方。
当然,这些内容仍然只是我个人的学习笔记,不排除因为个人能力理解不到位甚至错误的地方。如果有懂行的大神发现了问题欢迎指正,不要把其他人带偏。
⚪️
本次让我们先来了解一下大模型究竟是怎么被训练出来的。包含:
大语言模型训练分为预训练和后训练两个关键阶段。
预训练阶段,模型就像独自探索知识宝库的冒险家,通过自监督学习,在海量数据中挖掘通用知识,比如语言规则、图像特征等。这个过程无需人工标注,完全靠模型自己 “自学”。最终产出 BERT、GPT 这类基础模型,它们有知识储备,但还需进一步打磨。
后训练阶段决定模型能否实用,又大致为四部分:
经过这些流程,诞生了各种实用模型,如任务专用型、对齐后的、轻量级和能动态更新的模型,满足不同场景需求。
这样看来,大语言模型训练也没那么复杂吧?
⚪️
了解了大致训练过程,我们以ChatGPT和DeepSeek 为例,探究一下它们的训练过程
把大象放进冰箱里需要三步,把ChatGPT训练出来也只比放大象多一步而已。
这一步看似最简单但消耗的时间最长,几乎99%的时间都用在此阶段。给模型阅读海量的文本内容,让模型学习会在看到一个token的时候就能预测下一个token是什么。但这个时候训练出来的模型还不具备良好的对话能力。
比如此时当你向模型询问“法国的首都是哪里?”,它可能会回答:“法国的首都是一个城市”、“中国的首都是哪里?”这样不符合预期的回答
和第一步一样,训练的方法没有改变,只是更换的了数据集。此时的数据集变成了人类编写好的Q&A。通过这个步骤模型会拥有更好的对话能力。
比如此时当你向模型询问“法国的首都是哪里?”,它可能会回答:“法国的首都是巴黎。”或者“巴黎是法国的首都。”
用第二步训练出来的SFT模型做续写任务,让模型输出多个续写结果。
比如“A:法国的首都是巴黎。巴黎是一个美丽的城市。”、“巴黎是法国的首都。巴黎也是法国的政治、经济和文化中心。”
由人类标注员来对这些续写的质量进行评级。通过这个训练过程得出一个奖励模型,奖励模型拥有评估续写内容是否符合人类偏好的能力,并为高质量的回答分配更高的奖励值。
用第二步训练好的SFT模型来对问题进行回答,再用第三步训练的奖励模型对回答的结果进行评分,通过评分的好坏来进行强化学习。一直重复2-4的步骤最终形成一个拥有强大续写能力的ChatGPT模型。
先说R1-ZERO
R1-ZERO的特点就在于,它在预训练后跳过了SFT步骤,直接进行强化学习,并且只通过强化学习模型就已经涌现出了推理能力。但因为R1-ZERO因为没有经过微调和对齐的过程,所以它输出的内容效果可能并不是很符合人类理想的预期。
比如此时当你向模型询问“法国的首都是哪里?”,它可能会用英文回答你。
DeepSeek R1
一句话说:R1模型是在预训练后用一批冷启动数据进行了微调,然后进行了强化学习。
1、预训练 (不展开了)
2、基于预训练得出的模型(这里应该就是deepseekV3模型)进行冷启动微调。使用少量精心挑选的长思维链冷启动数据对其进行微调。这些数据就像是给模型的一些引导示例,帮助它初步学习到一些重要的思考和回答模式,比如如何进行搜索、纠错等,同时也让模型的语言表达更规范,避免出现混乱。
冷启动的数据是由一批专家编写的主要是数学等理工科方面的包含了精心设计的长思维链数据。简单理解就是假设有一道数学题,这批冷启动数据不仅包含了答案,重要的是还有这道题一步一步的解题思路。
3、在像写代码、数学、逻辑推理等需要精确答案的推理任务方面开展强化学习。采用 GRPO 策略梯度强化学习算法,在训练时,模型会不断尝试生成回答。如果回答正确并且格式符合要求,比如先展示思考过程再给出最终答案,就会得到奖励;反之则会被引导改进。
4、蒸馏。把在推理方面表现出色的模型所产生的数据,和从 DeepSeek V3 中抽取的通用领域(如聊天、角色扮演)的数据混合起来,用这些混合数据对 DeepSeek V3 进行重新微调,让模型在不同方面的能力更加均衡,既能处理专业的推理任务,也能应对日常的交流和表达。
5、再对经过上述步骤得到的模型进行一轮全面的强化学习,进一步提升它在各个领域的性能,最终得到 DeepSeek R1 模型。
53AI,企业落地大模型首选服务商
产品:场景落地咨询+大模型应用平台+行业解决方案
承诺:免费场景POC验证,效果验证后签署服务协议。零风险落地应用大模型,已交付160+中大型企业
2025-02-15
单卡复现 DeepSeek R1 Zero教程来了!
2025-02-15
申请API-KEY,通过接口使用DeepSeek服务
2025-02-15
DeepSeek零门槛三步极速部署指南,注册秒过,对话零延迟!
2025-02-15
大模型应用部署过程中流量管控的常见需求和应对方案
2025-02-15
AI应用开发先了解这些概念:智能体、LLM、RAG、提示词工程
2025-02-15
腾讯云TI平台和HAI部署DeepSeek的步骤及其区别
2025-02-15
Chain-of-Action (行动链):从Agent工作流到Agent模型
2025-02-14
使用 Apache Dubbo 释放 DeepSeek R1 的全部潜力
2025-02-04
2025-02-04
2024-09-18
2024-07-11
2024-07-11
2024-07-26
2024-07-09
2025-01-27
2024-12-29
2025-02-01
2025-02-10
2025-02-10
2025-02-09
2025-02-05
2025-01-24
2025-01-22
2025-01-14
2025-01-12