微信扫码
与创始人交个朋友
我要投稿
在看了 OpenAI 的直播,精读了字节论文,以及和 知乎@真中合欢 激烈辩论后。我对 RFT ( Reinforcement Fine-Tuning ) 也有了一些自己的认知,这篇文章给大家分享一下我的理解。
首先给出我的结论:RFT 并不是新的技术范式,而是 PPO 技术范式下的新应用范式,RFT 相比于传统 PPO 的创新点是 rule-based reward_model。
叠甲声明:RFT 属于应用范式,RFT 依赖的是 rule-based reward_model ,这两个观点属于个人看法,如有不对,还望轻喷。至于 “dozens of data” 就能生效,是不是能间接说明 RFT 相较于 PPO 之外,有更多的细节,我目前没有从 OpenAI 纰漏的 demo 中观察出来。
从 OpenAI 展示的内容中,我们可以这么理解:RFT 就是针对给定 prompt,产生一些包含 cot 的 response ,再通过一个 verifier 来判断 response 是否正确,作为信号来指导模型进行参数更新。
抛开 cot 过程不谈,如果我们把这套流程的 verifier 换成 reward_model ,这个流程看上去是不是感到很熟悉?—— 那就是最传统的基于 PPO 的 RLHF。
好,目前为止,在我的认知中,RFT 和 RLHF 唯一的区别就是,它的 return (reward 信号) 是通过 verifier 算出来的,而不是一个 reward_model 计算出来的。verifier 本身则可以看成是一个 rule,比如 math 任务的答案是否正确,code 任务的代码是否能执行 …… 因此, RFT = PPO + rule_based reward_model
OpenAI 在介绍 RFT 的时候说了这样一句话:“RFT 旨在使开发者和机器学习工程师能够创建专门针对特定复杂、特定领域任务的专家模型”。这就是 RFT 的价值:只要能定制好一个任务的 verifier,那么 RFT 便可以在这个新的领域场景,以十分之一或更少的数据,轻松超过 SFT 的结果。当然,用 PPO 训练模型能带来的所有收益也都是 RFT 的优点,这里就不赘述了。
介绍中还提到,RFT 擅长解决法律、保险、医疗、金融和工程领域等任务,而这些任务通常有明确的“正确答案”。是因为 RFT 只适合答案固定的场景吗?不是,仅仅是因为答案固定的场景 verifier 非常容易制定。
Sam Altman 在直播中认为 RFT 是 2024 最牛的技术进展,能帮助大家搞定专业模型的训练。说的没错,RFT 在大模型应用方向确实是划时代的,因为它真的能帮 OpenAI 卖更多的定制化服务。LLM 从业者们也能从中些许受益,掌握了 RFT 技术后,以后老板再提出做一个新的应用模型,我们就不需要再枯燥的标注大量的 SFT 数据,而是花一点时间训个 verifier 即可。
说完 OpenAI 的 RFT,我们再来聊聊字节的 ReFT。字节的 ReFT 可以看作是 OpenAI 的 RFT 在数学任务上的一个极简版实现方案(仅从 OpenAI 纰漏出来的细节,我没看出来二者有本质的区别,或许 dozens of data 这几个单词背后埋藏了更多的技术细节):
如果我们现在再读 ReFT 论文,会觉着这篇论文并没有太多的闪光点,好像里面提到的方案自己也都能想到。我想说的是:ReFT 这篇论文,好就好在它是在 o1 之前发表的。因为 o1 的出现,“cot 的推理过程,MCTS 采样,PRM,ORM,rule-based reward_model” 等概念,已经在 LLM 圈深入人心了。大家顶着 o1 的知识背景,回头看今年上半年的创新工作,自然会觉着有些稚嫩。
ReFT 这篇论文固然伟大,但就像我前面说的,RFT 只是 PPO 技术范式下的一个新应用范式。它本身并不是一个全新的技术范式,所以我个人觉着谈不上说谁首创了这个技术范式。
对于字节这样的算力大厂,本来就有卖大模型服务的业务线,那么 RFT 既然能帮 OpenAI 卖服务,自然也能帮字节卖服务。所以大厂需要立刻跟进这项应用技术。
对于 LLM 的普通从业者,短期内则是无事发生,该训 SFT 还得训,该洗数据还得洗。但长远来看,我们的心态和学习方向需要发生变化,我们必须留意到,这已经是 OpenAI 今年第二次告诉大家说 PPO 真的很重要了,上一次是 o1。如果大家还是“两耳不闻强化事,一心只搞 dpo”,我只能说心态确实够顶。
希望大家不要再感慨 SFT 没价值了,也别感慨 RFT 真牛啊,完全追不上 OpenAI 之类的话,感慨无用,如果对 RFT 感兴趣,请 git clone OpenRLHF 代码,然后 bash train_ppo.sh。
53AI,企业落地应用大模型首选服务商
产品:大模型应用平台+智能体定制开发+落地咨询服务
承诺:先做场景POC验证,看到效果再签署服务协议。零风险落地应用大模型,已交付160+中大型企业
2024-12-21
一文回顾OpenAI系列发布会:从工具到AGI,OpenAI的12天进化论
2024-12-19
强化微调技术详解:开启AI模型定制的新篇章
2024-12-18
OpenAI 年底「百亿补贴」来了,满血 o1 API 开放,成本暴跌,定制升级
2024-12-18
腾讯AI团队:用Ray分布式计算效率提升800%
2024-12-18
OpenAI 新货详解:大量接口更新,还有 Go/Java SDK
2024-12-18
提升大模型 Function Calling 准确性
2024-12-18
OpenAI Day9丨o1实时API全面开放,音频价格降低60%
2024-12-18
重磅!OpenAI开放满血o1模型API,成本暴降60%
2024-09-18
2024-07-11
2024-07-11
2024-07-09
2024-06-11
2024-10-20
2024-07-23
2024-07-20
2024-07-26
2024-07-12