微信扫码
与创始人交个朋友
我要投稿
众所周知,开源大模型的Chat版本普遍遵循LLM训练三部曲:预训练(Pretrain)、有监督微调(Supervised Fine-Tuning, SFT)以及基于人类反馈的强化学习(Reinforcement Learning from Human Feedback, RLHF)。然而,在实际应用中,SFT常被频繁采用,而RLHF则较少被实施。这引发了我们对RLHF独特价值的思考:RLHF的必要性何在?为何需要引入RLHF?
首先,让我们回顾SFT的基本概念。SFT是一种有监督的学习方法,通过提供明确的输入-输出对,模型学习从输入到输出的映射关系。在SFT中,主要目标是预测下一个token,并最大化其准确率。
然而,RLHF则采取了不同的策略。它首先训练一个奖励模型(reward model),使该模型能够识别哪些回复更符合人类的偏好和期望。随后,利用这个奖励模型来指导大模型的学习过程,从而确保生成的回复与人类标注更为接近。
那么,是否每次都需要进行RLHF呢?或者说,在什么情况下应该选择SFT,何时又应该进行RLHF?在Robert Kirk等人的研究中,对此进行了深入的探讨。他们主要从泛化性和多样性两个角度分析了SFT与RLHF的表现。研究发现,在模型的泛化能力上,经过RLHF训练的模型表现更为出色,超越了仅经过SFT的模型。然而,在回复的多样性方面,RLHF则显著不如SFT,即经过RLHF的模型倾向于产生更为相似的回复。
SFT后的模型能够更加精准的识别InstructionTokens、并依赖这些指令进行生成,而RLHF作为一种更有力的训练方式,能够进一步强化LLM对指令的识别及响应能力,因此在泛化性提升上,RLHF>SFT。
在多样性上,输出模式、风格的集中是RLHF的必然后果,因此RLHF后LLM的多样性会有所降低。同时,RLHF对误差更加敏感也是一把双刃剑,在训练过程中可能会对某些模式或特征产生过拟合,也即模式坍塌现象。
针对实际项目需求,由于主要关注垂直领域内的表现,且大多数情况下SFT已能满足上线要求,更倾向于选择SFT作为解决方案。这是因为SFT在性价比上更具优势,并且在我们关注的领域内,其表现已经足够出色。当然,对于需要更高泛化能力和更多样化回复的场景,RLHF无疑是一个值得考虑的选项
53AI,企业落地应用大模型首选服务商
产品:大模型应用平台+智能体定制开发+落地咨询服务
承诺:先做场景POC验证,看到效果再签署服务协议。零风险落地应用大模型,已交付160+中大型企业
2024-03-30
2024-04-26
2024-05-10
2024-04-12
2024-05-28
2024-05-14
2024-04-25
2024-07-18
2024-04-26
2024-05-06
2024-12-22
2024-12-21
2024-12-21
2024-12-21
2024-12-21
2024-12-20
2024-12-20
2024-12-19