我要投稿

一文对比大模型SFT和RLHF

发布日期：2024-05-19 07:33:06 浏览次数： 6937 作者：DeepPrompting

众所周知，开源大模型的Chat版本普遍遵循LLM训练三部曲：预训练（Pretrain）、有监督微调（Supervised Fine-Tuning, SFT）以及基于人类反馈的强化学习（Reinforcement Learning from Human Feedback, RLHF）。然而，在实际应用中，SFT常被频繁采用，而RLHF则较少被实施。这引发了我们对RLHF独特价值的思考：RLHF的必要性何在？为何需要引入RLHF？

首先，让我们回顾SFT的基本概念。SFT是一种有监督的学习方法，通过提供明确的输入-输出对，模型学习从输入到输出的映射关系。在SFT中，主要目标是预测下一个token，并最大化其准确率。

然而，RLHF则采取了不同的策略。它首先训练一个奖励模型（reward model），使该模型能够识别哪些回复更符合人类的偏好和期望。随后，利用这个奖励模型来指导大模型的学习过程，从而确保生成的回复与人类标注更为接近。

那么，是否每次都需要进行RLHF呢？或者说，在什么情况下应该选择SFT，何时又应该进行RLHF？在Robert Kirk等人的研究中，对此进行了深入的探讨。他们主要从泛化性和多样性两个角度分析了SFT与RLHF的表现。研究发现，在模型的泛化能力上，经过RLHF训练的模型表现更为出色，超越了仅经过SFT的模型。然而，在回复的多样性方面，RLHF则显著不如SFT，即经过RLHF的模型倾向于产生更为相似的回复。

SFT后的模型能够更加精准的识别InstructionTokens、并依赖这些指令进行生成，而RLHF作为一种更有力的训练方式，能够进一步强化LLM对指令的识别及响应能力，因此在泛化性提升上，RLHF>SFT。

在多样性上，输出模式、风格的集中是RLHF的必然后果，因此RLHF后LLM的多样性会有所降低。同时，RLHF对误差更加敏感也是一把双刃剑，在训练过程中可能会对某些模式或特征产生过拟合，也即模式坍塌现象。

针对实际项目需求，由于主要关注垂直领域内的表现，且大多数情况下SFT已能满足上线要求，更倾向于选择SFT作为解决方案。这是因为SFT在性价比上更具优势，并且在我们关注的领域内，其表现已经足够出色。当然，对于需要更高泛化能力和更多样化回复的场景，RLHF无疑是一个值得考虑的选项