我要投稿

大模型的训练与调优，SFT(监督微调)和RLHF(基于人类反馈的强化学习)到底是什么？

发布日期：2024-08-13 11:20:02 浏览次数： 4055 作者：AI探索时代

“ 大模型设计，训练，微调，强化是一个系统性的过程”

大模型的训练和调优是一个系统性的，复杂性的过程；为此，研究人员为大模型的训练和微调设计了详细的方案。

今天就是介绍一下大模型优化的两个方法论，SFT——监督微调和RLHF——基于人类反馈的强化学习。‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍

—

什么是SFT和RLHF？‍‍

下面是关于这两个概念的简单释义：

SFT中文释义为：一种通过监督学习进行模型微调的方法。RLHF的释义为：一种利用人类反馈进行强化学习的方法，该方法通过收集人类对模型输出的反馈；然后使用这些反馈来优化模型的行为。

‍‍‍‍‍‍‍‍‍‍‍

说白了，不论是SFT还是RLHF的目的只有一个，那就是让模型变得更好。‍‍‍‍‍‍‍

SFT——监督微调‍‍‍‍

监督微调的原理很简单，就类似于学生上学，不论题目做的是对是错，老是都会告诉你一个正确的结果，也就是答案。‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍

监督微调的做法就是，在大模型训练或微调的过程中，把一部分数据打上“标签”；也就是告诉大模型这些数据是什么东西。‍‍‍‍‍‍‍‍‍‍

比如，在CV(计算机视觉)领域，图像识别的大模型在训练的时候，会告诉大模型哪些图片是人，哪些图片是猫，哪些图片是狗；而人，猫，狗就是数据的标注。‍‍‍‍‍

数据标注的展现形式很多，比如文件/文件夹名称，数据与标注的对应关系等。‍

有了监督微调，大模型就知道自己在干什么，能干什么；还拿图像识别举例，监督微调之后大模型能够识别，人类，猫和狗，但它识别不出来汽车和飞机。‍‍‍‍‍‍‍‍‍‍‍‍

如果想让它识别汽车和飞机，那么就要在训练或微调的数据中加入标注的汽车和飞机的图片。‍

监督微调的应用领域比较广泛，目前主流的大模型基本上都是采用的监督微调的方式，具体的领域包括文本分类，情感分析等。‍‍‍‍‍‍‍‍‍‍‍

SFT适用于有明确任务目标和大量标注数据的任务。‍‍‍‍‍‍‍‍‍

RLHF——基于人类反馈的强化学习‍‍‍

RLHF应该算是两种东西的结合，RL(强化学习)和HF(人类反馈)；强化学习是机器学习中的一种方法，强化学习有多种方式，而基于人类反馈的方式就叫做RLHF。

其实RLHF属于模仿人类行为学的一种方式，比如我们不论在工作或生活中做一件事总喜欢得到夸奖或赞美，这样我们就会想办法把事情做的更好。‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍

从技术角度来说，RLHF需要不断收集用户反馈，比如好与坏，评分等；然后根据这些反馈训练一个奖励模型，该模型用来评价模型等输出质量。‍‍‍‍‍‍‍

然后使用强化学习算法，如PPO优化语言模型，使其输出能够最大化奖励模型。‍‍‍‍‍‍‍‍‍‍

而从应用的角度来说，RLHF主要应用于对话，内容生成等领域；比较典型的就是我们在使用一些第三方模型时，会弹出让我们评价的按钮，比如chatGPT。‍‍‍‍‍‍‍‍‍‍‍‍

目前chatGPT的能力不断加强，除了其技术架构方面的原因之外，还有一部分是基于强化学习的方式来优化其模型。‍‍‍‍‍‍‍‍‍

SFT与RLHF的异同点

说起SFT和RLHF的共同点，那它们的共同点很简单，那就是通过不同的方式让模型变得更好。‍‍‍‍‍‍‍‍‍

还有就是两者都是基于数据驱动，或者说大模型都属于数据驱动；SFT需要标注的数据，而RLHF需要人类反馈的数据。‍‍‍‍‍‍‍

至于不同点，最明显的特征有两个，第一个就是两者的实现原理不同，SFT使用的是监督学习算法，而RLHF使用的是强化学习算法。‍‍‍‍‍‍‍‍‍‍‍‍

个人开发的人工智能小程序，感兴趣的可以点击查看：

其次，就是两者的应用场景不太相同；SFT适用那种有着明确任务目标的任务，比如说分类；而RLHF适用于那种需要不断升级优化的系统，比如客服系统，问答系统等。‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍

从两者的应用角度来说，选择SFT方法的企业较多，使用RLHF的企业相对较少。

并不是说RLHF技术比SFT的差，而是目前的人工智能生态还无法大规模使用RLHF，一是因为应用场景较少，二是技术要求和成本较高。

53AI，企业落地大模型首选服务商

产品：场景落地咨询+大模型应用平台+行业解决方案

承诺：免费场景POC验证，效果验证后签署服务协议。零风险落地应用大模型，已交付160+中大型企业

相关资讯

2025-04-22

超详细使用Ollama本地部署Deepseek

2025-04-22

大模型微调：Prompt-Tuning

2025-04-22

手把手教你如何集群部署大模型

2025-04-22

vLLM部署QwQ-32B（GPU版）

2025-04-22

企业私有大模型DeepSeek落地部署该用什么? Ollama还是vLLM

2025-04-21

“算法备案与大模型备案：你们是否已完成双备案？”

2025-04-21

vLLM部署Deepseek（CPU版）踩坑记录（失败经验贴）

2025-04-21

一台3090就能跑Gemma 3 27B！谷歌发布Gemma 3全系QAT版模型

了解更多

160+中大型企业正在使用53AI

立即咨询预约演示

把握AI发展的机遇，共同探索、共同进步

2025-01-22

如何打造基于GenAI的员工服务机器人

2025-01-22

热点资讯

一文读懂DeepSeek-R1本地部署配置要求（建议收藏）

2025-02-04

DeepSeek R1 671B 完整版本地部署教程来了！！！

2025-02-04

太爽了！o1 现在可以天天享用了

2024-09-18

万字综述 10+ 种 LLM 投机采样推理加速方案

2024-07-11

微调神器LLaMA-Factory官方保姆级教程来了，从环境搭建到模型训练评估全覆盖

2024-07-09

FP8 低精度训练：Transformer Engine 简析

2024-07-11

彻底理解系列之：FP32、FP16、TF32、BF16、混合精度

2024-07-26

别被Deepseek低成本冲昏头！本地化部署后续的“甜蜜陷阱”，你真能扛住吗？

2025-02-05

ollama 部署 deepseek-r1 70B 模型完整指南

2025-01-27

o3-mini 完全指南：一个被 DeepSeek 破大防的模型

2025-02-01

大家都在问

MCP vs Function Calling，该如何选？

2025-04-20

RAGFlow vs Dify, 商业化落地场景选哪个？

2025-04-01

如何利用Dify轻松构建你的专属语料库？

2025-03-31

从 0 到 1，Agentic Ops 如何打造企业级 AI 生产力？

2025-03-20

DeepSeek-R1的Qwen-32B蒸馏模型与QwQ-32B模型，谁更强？

2025-03-16

部署DeepSeek的4条路，企业级客户到底该咋走？

2025-03-16

谷歌Gemma 3 27b 到底能不能打，写个游戏测试下？

2025-03-13

强化学习(RL)是什么? 它和微调有什么区别?

2025-03-13

热门标签

内容创作大模型技术个人提效 langchain llamaindex 多模态技术 RAG技术智能客服知识图谱模型微调 RAGFlow coze Dify Fastgpt Bisheng Qanything AI+汽车 AI+金融 AI+工业 AI+培训 AI+SaaS 提示词框架提示词技巧 AI+电商 AI面试数字员工 ChatBI 知识管理开源大模型智能营销智能硬件智能化改造 AI+医疗 MaxKB