微信扫码
与创始人交个朋友
我要投稿
大家都听说过监督微调SFT,强化微调是个什么东西?
这次为期12天的OpenAI发布系列的Day2,就搞出了一个让开发者震惊的玩意儿。强化微调(Reinforcement Fine-Tuning)是通过给予模型高质量任务数据和参考答案来强化其推理能力。
与传统微调不同,强化微调并不是简单地让模型“记住答案”,而是通过训练模型在特定领域中学会推理,找到正确答案。可以把它想象成给 AI 一套复杂的规则,让它通过实践和思考逐步掌握解决问题的方法。
这种微调方法使用两种数据集:一个是用于训练的微调数据集,另一个是用于验证的测试数据集。模型首先通过微调数据集进行学习,然后在测试数据集上验证其推理能力,发现不足后再调整。通过这种反复的自我推理、训练和验证,模型的能力会逐步提升,最终达到极高的专业水平。
这种方法不仅提高了模型解决相似问题的能力,还显著增强了在特定领域的准确性。比如法律、保险、医疗、金融和工程领域,这些任务通常有明确的“正确答案”,而强化微调正是应对这些场景的利器
Sam Altman 认为强化微调 Reinforcement Fine-Tuning是2024最牛的技术进展,能帮助大家搞定专业模型的训练。
用户用起来也非常简单。
强化微调技术最早由字节提出?
Reinforcement learning fine-tuning,简称为ReFT,它结合了监督微调(SFT)和强化学习(RL)的方法,通过引入多条推理路径的学习,对这些路径与正确答案的匹配程度进行自动评估,从而优化模型生成高质量解答的能力。
而且,这个技术路线,更早竟然是字节跳动提出发出的,论文还发布在今年ACL 24上。
字节跳动在ACL 2024顶会上发表的ReFT论文是:
REFT: Reasoning with REinforced Fine-Tuning
研究内容为,通过监督微调(SFT)和强化学习RL(PPO算法)结合,来提高大语言模型在解决数学问题方面的推理能力。
ReFT 由两个阶段组成:预热(Warm-up)阶段和强化学习RL阶段。首先使用 SFT 对模型进行预热,然后采用在线强化学习(在该工作中具体是 PPO 算法)进行优化。
Warm-up是ReFT的初始步骤,其目的是为模型提供一个基础,使其能够生成对数学问题的基本正确响应。这个阶段使用监督式微调SFT实现:
这一阶段使用包含“Question”和“思维链CoT”元组的数据集:(x, e)。模型在这些“Question-CoT”对上进行微调,通常持续1-2个epoch。这个过程将模型的预测能力调整到能够生成适当的响应。
在预热阶段之后,模型进入强化学习阶段,这个阶段使用PPO(Proximal Policy Optimization)算法来进一步提升模型的性能。
这一阶段使用包含“Question”和“Answer”元组(x,y)组成的数据集。
具体来说,模型通过反复生成多种可能的CoT推理路径,还有一个评估器,专门评估响应的答案正确性,生成reward信号反馈。正确答案会给予正奖励,错误答案则不给予奖励。
这个过程,类似于AlphaZero在围棋领域的自对弈(self-play)学习。
从结果上看,ReFT在所有数据集上都显示出比SFT更好的性能,特别是在CodeLLAMA模型上,ReFT在GSM8K数据集上的准确率比SFT提高了近10个百分点。
53AI,企业落地应用大模型首选服务商
产品:大模型应用平台+智能体定制开发+落地咨询服务
承诺:先做场景POC验证,看到效果再签署服务协议。零风险落地应用大模型,已交付160+中大型企业
2024-12-22
Hugging Face 发布免费开放课程,微调本地LLMs模型
2024-12-22
我对Multi-Agent集成业务场景设计
2024-12-21
一文回顾OpenAI系列发布会:从工具到AGI,OpenAI的12天进化论
2024-12-19
强化微调技术详解:开启AI模型定制的新篇章
2024-12-18
OpenAI 年底「百亿补贴」来了,满血 o1 API 开放,成本暴跌,定制升级
2024-12-18
腾讯AI团队:用Ray分布式计算效率提升800%
2024-12-18
OpenAI 新货详解:大量接口更新,还有 Go/Java SDK
2024-12-18
聊聊对强化微调(RFT)的理解及看法
2024-09-18
2024-07-11
2024-07-11
2024-07-09
2024-06-11
2024-10-20
2024-07-23
2024-07-20
2024-07-26
2024-07-12