微信扫码
添加专属顾问
我要投稿
“ 大模型设计,训练,微调,强化是一个系统性的过程”
大模型的训练和调优是一个系统性的,复杂性的过程;为此,研究人员为大模型的训练和微调设计了详细的方案。
今天就是介绍一下大模型优化的两个方法论,SFT——监督微调和RLHF——基于人类反馈的强化学习。
01
—
什么是SFT和RLHF?
下面是关于这两个概念的简单释义:
SFT中文释义为:一种通过监督学习进行模型微调的方法。RLHF的释义为:一种利用人类反馈进行强化学习的方法,该方法通过收集人类对模型输出的反馈;然后使用这些反馈来优化模型的行为。
说白了,不论是SFT还是RLHF的目的只有一个,那就是让模型变得更好。
SFT——监督微调
监督微调的原理很简单,就类似于学生上学,不论题目做的是对是错,老是都会告诉你一个正确的结果,也就是答案。
监督微调的做法就是,在大模型训练或微调的过程中,把一部分数据打上“标签”;也就是告诉大模型这些数据是什么东西。
比如,在CV(计算机视觉)领域,图像识别的大模型在训练的时候,会告诉大模型哪些图片是人,哪些图片是猫,哪些图片是狗;而人,猫,狗就是数据的标注。
数据标注的展现形式很多,比如文件/文件夹名称,数据与标注的对应关系等。
有了监督微调,大模型就知道自己在干什么,能干什么;还拿图像识别举例,监督微调之后大模型能够识别,人类,猫和狗,但它识别不出来汽车和飞机。
如果想让它识别汽车和飞机,那么就要在训练或微调的数据中加入标注的汽车和飞机的图片。
监督微调的应用领域比较广泛,目前主流的大模型基本上都是采用的监督微调的方式,具体的领域包括文本分类,情感分析等。
SFT适用于有明确任务目标和大量标注数据的任务。
RLHF——基于人类反馈的强化学习
RLHF应该算是两种东西的结合,RL(强化学习)和HF(人类反馈);强化学习是机器学习中的一种方法,强化学习有多种方式,而基于人类反馈的方式就叫做RLHF。
其实RLHF属于模仿人类行为学的一种方式,比如我们不论在工作或生活中做一件事总喜欢得到夸奖或赞美,这样我们就会想办法把事情做的更好。
从技术角度来说,RLHF需要不断收集用户反馈,比如好与坏,评分等;然后根据这些反馈训练一个奖励模型,该模型用来评价模型等输出质量。
然后使用强化学习算法,如PPO优化语言模型,使其输出能够最大化奖励模型。
而从应用的角度来说,RLHF主要应用于对话,内容生成等领域;比较典型的就是我们在使用一些第三方模型时,会弹出让我们评价的按钮,比如chatGPT。
目前chatGPT的能力不断加强,除了其技术架构方面的原因之外,还有一部分是基于强化学习的方式来优化其模型。
SFT与RLHF的异同点
说起SFT和RLHF的共同点,那它们的共同点很简单,那就是通过不同的方式让模型变得更好。
还有就是两者都是基于数据驱动,或者说大模型都属于数据驱动;SFT需要标注的数据,而RLHF需要人类反馈的数据。
至于不同点,最明显的特征有两个,第一个就是两者的实现原理不同,SFT使用的是监督学习算法,而RLHF使用的是强化学习算法。
个人开发的人工智能小程序,感兴趣的可以点击查看:
其次,就是两者的应用场景不太相同;SFT适用那种有着明确任务目标的任务,比如说分类;而RLHF适用于那种需要不断升级优化的系统,比如客服系统,问答系统等。
从两者的应用角度来说,选择SFT方法的企业较多,使用RLHF的企业相对较少。
并不是说RLHF技术比SFT的差,而是目前的人工智能生态还无法大规模使用RLHF,一是因为应用场景较少,二是技术要求和成本较高。
53AI,企业落地大模型首选服务商
产品:场景落地咨询+大模型应用平台+行业解决方案
承诺:免费场景POC验证,效果验证后签署服务协议。零风险落地应用大模型,已交付160+中大型企业
2025-03-12
使用vLLM部署工具加速QWQ,推理速度比ollama更快、并发更高
2025-03-12
企业级私有化部署:基于 Ollama 实现 DeepSeek 大模型
2025-03-11
DeepSeek 满血版 8卡 H20 141GB 并发压力测试,体验极致性能!
2025-03-11
Cursor 新版本要来了!释放Claude 3.7全部潜力,估值百亿引热议,前Apple工程师:招人要会用AI。
2025-03-11
vLLM 私有化部署满血版 DeepSeek-R1-671B 模型
2025-03-11
从DeepSeek到Manus:如何实现本地LLM微调+联网开发?
2025-03-11
从零开始的DeepSeek微调训练实战(SFT)
2025-03-11
DeepSeek-R1 671B + KTransformer部署服务器配置&万元复现方案
2025-02-04
2025-02-04
2024-09-18
2024-07-11
2024-07-09
2024-07-11
2024-07-26
2025-02-05
2025-01-27
2025-02-01