我要投稿

聊聊对强化微调（RFT）的理解及看法

发布日期：2024-12-18 05:15:30 浏览次数： 2855

作者：AINLP

微信搜一搜，关注“AINLP”

在看了 OpenAI 的直播，精读了字节论文，以及和知乎@真中合欢激烈辩论后。我对 RFT ( Reinforcement Fine-Tuning ) 也有了一些自己的认知，这篇文章给大家分享一下我的理解。

首先给出我的结论：RFT 并不是新的技术范式，而是 PPO 技术范式下的新应用范式，RFT 相比于传统 PPO 的创新点是 rule-based reward_model。

叠甲声明：RFT 属于应用范式，RFT 依赖的是 rule-based reward_model ，这两个观点属于个人看法，如有不对，还望轻喷。至于 “dozens of data” 就能生效，是不是能间接说明 RFT 相较于 PPO 之外，有更多的细节，我目前没有从 OpenAI 纰漏的 demo 中观察出来。

RFT 是什么

从 OpenAI 展示的内容中，我们可以这么理解：RFT 就是针对给定 prompt，产生一些包含 cot 的 response ，再通过一个 verifier 来判断 response 是否正确，作为信号来指导模型进行参数更新。

抛开 cot 过程不谈，如果我们把这套流程的 verifier 换成 reward_model ，这个流程看上去是不是感到很熟悉？—— 那就是最传统的基于 PPO 的 RLHF。

好，目前为止，在我的认知中，RFT 和 RLHF 唯一的区别就是，它的 return (reward 信号) 是通过 verifier 算出来的，而不是一个 reward_model 计算出来的。verifier 本身则可以看成是一个 rule，比如 math 任务的答案是否正确，code 任务的代码是否能执行 …… 因此， RFT = PPO + rule_based reward_model

RFT 的价值

OpenAI 在介绍 RFT 的时候说了这样一句话：“RFT 旨在使开发者和机器学习工程师能够创建专门针对特定复杂、特定领域任务的专家模型”。这就是 RFT 的价值：只要能定制好一个任务的 verifier，那么 RFT 便可以在这个新的领域场景，以十分之一或更少的数据，轻松超过 SFT 的结果。当然，用 PPO 训练模型能带来的所有收益也都是 RFT 的优点，这里就不赘述了。

介绍中还提到，RFT 擅长解决法律、保险、医疗、金融和工程领域等任务，而这些任务通常有明确的“正确答案”。是因为 RFT 只适合答案固定的场景吗？不是，仅仅是因为答案固定的场景 verifier 非常容易制定。

Sam Altman 在直播中认为 RFT 是 2024 最牛的技术进展，能帮助大家搞定专业模型的训练。说的没错，RFT 在大模型应用方向确实是划时代的，因为它真的能帮 OpenAI 卖更多的定制化服务。LLM 从业者们也能从中些许受益，掌握了 RFT 技术后，以后老板再提出做一个新的应用模型，我们就不需要再枯燥的标注大量的 SFT 数据，而是花一点时间训个 verifier 即可。

字节的 ReFT

说完 OpenAI 的 RFT，我们再来聊聊字节的 ReFT。字节的 ReFT 可以看作是 OpenAI 的 RFT 在数学任务上的一个极简版实现方案（仅从 OpenAI 纰漏出来的细节，我没看出来二者有本质的区别，或许 dozens of data 这几个单词背后埋藏了更多的技术细节）：

SFT 得到一个较好的模型；
给定 prompt，do_sample 多次，生成一些带 cot 的 response；
答案正确，1 分；答案错误，0.1 分；提取不到答案（说明没有 follow 输出格式），0分；
根据 returns 更新模型。

如果我们现在再读 ReFT 论文，会觉着这篇论文并没有太多的闪光点，好像里面提到的方案自己也都能想到。我想说的是：ReFT 这篇论文，好就好在它是在 o1 之前发表的。因为 o1 的出现，“cot 的推理过程，MCTS 采样，PRM，ORM，rule-based reward_model” 等概念，已经在 LLM 圈深入人心了。大家顶着 o1 的知识背景，回头看今年上半年的创新工作，自然会觉着有些稚嫩。

ReFT 这篇论文固然伟大，但就像我前面说的，RFT 只是 PPO 技术范式下的一个新应用范式。它本身并不是一个全新的技术范式，所以我个人觉着谈不上说谁首创了这个技术范式。

RFT 会改变什么

对于字节这样的算力大厂，本来就有卖大模型服务的业务线，那么 RFT 既然能帮 OpenAI 卖服务，自然也能帮字节卖服务。所以大厂需要立刻跟进这项应用技术。

对于 LLM 的普通从业者，短期内则是无事发生，该训 SFT 还得训，该洗数据还得洗。但长远来看，我们的心态和学习方向需要发生变化，我们必须留意到，这已经是 OpenAI 今年第二次告诉大家说 PPO 真的很重要了，上一次是 o1。如果大家还是“两耳不闻强化事，一心只搞 dpo”，我只能说心态确实够顶。