微信扫码
添加专属顾问
我要投稿
大家都听说过监督微调SFT,强化微调是个什么东西?
这次为期12天的OpenAI发布系列的Day2,就搞出了一个让开发者震惊的玩意儿。强化微调(Reinforcement Fine-Tuning)是通过给予模型高质量任务数据和参考答案来强化其推理能力。
与传统微调不同,强化微调并不是简单地让模型“记住答案”,而是通过训练模型在特定领域中学会推理,找到正确答案。可以把它想象成给 AI 一套复杂的规则,让它通过实践和思考逐步掌握解决问题的方法。
这种微调方法使用两种数据集:一个是用于训练的微调数据集,另一个是用于验证的测试数据集。模型首先通过微调数据集进行学习,然后在测试数据集上验证其推理能力,发现不足后再调整。通过这种反复的自我推理、训练和验证,模型的能力会逐步提升,最终达到极高的专业水平。
这种方法不仅提高了模型解决相似问题的能力,还显著增强了在特定领域的准确性。比如法律、保险、医疗、金融和工程领域,这些任务通常有明确的“正确答案”,而强化微调正是应对这些场景的利器
Sam Altman 认为强化微调 Reinforcement Fine-Tuning是2024最牛的技术进展,能帮助大家搞定专业模型的训练。
用户用起来也非常简单。
强化微调技术最早由字节提出?
Reinforcement learning fine-tuning,简称为ReFT,它结合了监督微调(SFT)和强化学习(RL)的方法,通过引入多条推理路径的学习,对这些路径与正确答案的匹配程度进行自动评估,从而优化模型生成高质量解答的能力。
而且,这个技术路线,更早竟然是字节跳动提出发出的,论文还发布在今年ACL 24上。
字节跳动在ACL 2024顶会上发表的ReFT论文是:
REFT: Reasoning with REinforced Fine-Tuning
研究内容为,通过监督微调(SFT)和强化学习RL(PPO算法)结合,来提高大语言模型在解决数学问题方面的推理能力。
ReFT 由两个阶段组成:预热(Warm-up)阶段和强化学习RL阶段。首先使用 SFT 对模型进行预热,然后采用在线强化学习(在该工作中具体是 PPO 算法)进行优化。
Warm-up是ReFT的初始步骤,其目的是为模型提供一个基础,使其能够生成对数学问题的基本正确响应。这个阶段使用监督式微调SFT实现:
这一阶段使用包含“Question”和“思维链CoT”元组的数据集:(x, e)。模型在这些“Question-CoT”对上进行微调,通常持续1-2个epoch。这个过程将模型的预测能力调整到能够生成适当的响应。
在预热阶段之后,模型进入强化学习阶段,这个阶段使用PPO(Proximal Policy Optimization)算法来进一步提升模型的性能。
这一阶段使用包含“Question”和“Answer”元组(x,y)组成的数据集。
具体来说,模型通过反复生成多种可能的CoT推理路径,还有一个评估器,专门评估响应的答案正确性,生成reward信号反馈。正确答案会给予正奖励,错误答案则不给予奖励。
这个过程,类似于AlphaZero在围棋领域的自对弈(self-play)学习。
从结果上看,ReFT在所有数据集上都显示出比SFT更好的性能,特别是在CodeLLAMA模型上,ReFT在GSM8K数据集上的准确率比SFT提高了近10个百分点。
53AI,企业落地大模型首选服务商
产品:场景落地咨询+大模型应用平台+行业解决方案
承诺:免费场景POC验证,效果验证后签署服务协议。零风险落地应用大模型,已交付160+中大型企业
2025-03-12
使用vLLM部署工具加速QWQ,推理速度比ollama更快、并发更高
2025-03-12
企业级私有化部署:基于 Ollama 实现 DeepSeek 大模型
2025-03-11
DeepSeek 满血版 8卡 H20 141GB 并发压力测试,体验极致性能!
2025-03-11
Cursor 新版本要来了!释放Claude 3.7全部潜力,估值百亿引热议,前Apple工程师:招人要会用AI。
2025-03-11
vLLM 私有化部署满血版 DeepSeek-R1-671B 模型
2025-03-11
从DeepSeek到Manus:如何实现本地LLM微调+联网开发?
2025-03-11
从零开始的DeepSeek微调训练实战(SFT)
2025-03-11
DeepSeek-R1 671B + KTransformer部署服务器配置&万元复现方案
2025-02-04
2025-02-04
2024-09-18
2024-07-11
2024-07-09
2024-07-11
2024-07-26
2025-02-05
2025-01-27
2025-02-01