AI知识库

53AI知识库

学习大模型的前沿技术与行业应用场景


LLM预训练和评估奖励模型的技巧
发布日期:2024-04-29 17:31:27 浏览次数: 1952


LLM的持续预训练是一个重要的话题,因为它使我们能够更新现有的LLM,确保这些模型保持与最新信息和趋势的同步。此外,它还使我们能够在不必从头开始重新训练的情况下,将它们适应到新的目标领域。


奖励建模也很重要,因为它使我们能够更紧密地将LLM的生成输出与人类偏好保持一致,并在某种程度上有助于安全性。但除了人类偏好优化之外,它还提供了一种机制,通过提供难以实现正确行为的显式编程的指令-输出示例,来学习和调整LLM以执行复杂任务。

01、

持续预训练大型语言模型的简单且可扩展策略


我们经常讨论调整LLM以遵循指令的细节。然而,在实践中,使用新知识或特定领域数据来更新LLM也非常相关。(具体请参照论文:https://arxiv.org/abs/2403.08763)



具体来说,研究人员比较了三种不同方式训练的模型:

  • 普通预训练:使用随机权重初始化模型,并在数据集D1上进行预训练。

  • 持续预训练:在上述情况下预训练的预训练模型上进一步对数据集D2进行预训练。

  • 在合并数据集上重新训练:像我去年讨论BloombergGPT论文时一样,将模型初始化为随机权重,但是在数据集D1和D2的组合(并集)上进行训练。


    持续预训练比从头开始重新训练便宜2倍(因为只使用了预训练模型已经可用的一半数据),但可以达到相同的良好性能。



学习率调度


在预训练或微调LLM时,通常会使用学习率调度,该调度从线性预热开始,然后是半周期余弦衰减,如下图所示。

(图片源于网络)

如上图所示,在线性预热期间,学习率从一个较低的值开始逐渐增加到预定值,这有助于在主要训练阶段之前稳定模型的权重参数。随后,在预热期结束后,学习率采用余弦衰减调度,既训练又逐渐减少模型的学习率。


考虑到预训练以非常低的学习率结束,我们如何调整学习率以进行持续预训练?通常,我们重新引入学习率以进行预热阶段,然后跟随衰减阶段,这被称为重新加热和重新衰减。


简单来说,我们采用与初始预训练阶段相同的学习率调度,重新加热和重新衰减。


无限学习率调度可能很方便,因为可以在恒定学习率阶段的任何时间停止预训练,通过一个短暂的退火阶段(而不是完成余弦半周期)。然而,如上图所示的结果表明,对于预训练和持续预训练,使用“无限学习率”并不是必要的。常见的重新加热和重新衰减结果与无限学习率调度产生相同的最终损失。


02、

评估用于语言建模的奖励建模


RewardBench:评估用于语言建模的奖励建模引入了一个用于评估强化学习中使用的奖励模型的基准——RLHF的基准。 RLHF是一种流行的指令调整和LLM对齐过程。(具体请参照论文:https://arxiv.org/abs/2403.13787)



2.1 奖励建模和RLHF简介


RLHF旨在改进LLM,使其生成的输出更符合人类偏好。通常,这指的是模型响应的有用性和无害性。我还在以前的一篇文章中更详细地介绍了RLHF过程。


请注意,本文重点是对奖励模型进行基准测试,而不是通过LLMs获得的指令调整LLMs的结果。奖励建模过程,用于创建诸如ChatGPT和Llama 2-chat之类的指令遵循LLMs,总结在下图中。


(图片源于网络)

如上图所示,奖励模型创建是RLHF过程的中间步骤。此外,奖励模型本身是一个LLM。

奖励模型与原始基础LLM的区别在于,我们调整奖励模型的输出层,使其返回可用作奖励标签的分数。为实现此目的,我们有两个选择:(1)用一个新的线性层替换现有的输出层,该层产生一个单一的logit值,或者(2)重新利用现有的输出logit之一,并使用奖励标签进行微调。


训练奖励模型的过程和损失函数类似于训练用于分类的神经网络。在常规的二元分类中,我们预测输入示例是否属于类1或类0。我们使用逻辑函数来建模这一点,该函数计算输入示例属于类1的类成员概率。


2.2RLHF vs 直接偏好优化(DPO)


(图片源于网络)

在大多数模型中,例如Llama 2和OpenAI的InstructGPT(很可能是ChatGPT模型背后的相同方法),奖励模型被训练为分类器,以预测两个答案之间的人类偏好概率。


然而,训练奖励模型需要额外的步骤,在实践中,如果我们直接优化奖励而不创建显式奖励模型,则会更容易。这种方法,也称为直接偏好优化(DPO),最近变得非常流行。


在DPO中,我们的目标是优化策略π,其中策略只是正在训练的模型,以便它最大化预期的奖励,同时在一定程度上保持接近参考策略πref。这有助于在新策略π中保持πref的一些期望属性(如稳定性或安全性)。


由于其相对简单,即无需训练单独的奖励模型,因此通过DPO进行微调的LLMs非常受欢迎。但实际上,一个很大的问题是,它的表现如何?根据原始DPO论文,DPO的表现非常好,如下表所示。然而,这必须带着一颗谨慎的心来看,因为由于RLHF与专用奖励模型(即RLHF-PPO)的训练数据集和计算要求更大,因此比较可能不反映最佳DPO模型与最佳RLHF-PPO模型的比较。


2.3RewardBench


(图片源于网络)

在这篇简要介绍了RLHF和奖励建模之后,将直接介绍RewardBench:评估奖励建模用于语言建模论文,该论文提出了一个用于评估奖励模型和DPO模型的基准。


所提出的基准套件评估了所选(首选)响应和被拒绝响应的分数,如下图所示。


(图片源于网络)

接下来的表格列出了根据RewardBench排名的前20个模型。这个表格中的数据实际上确认了我之前提到的。也就是说,许多DPO模型可以在大多数LLM排行榜的前列找到,这很可能是因为DPO比RLHF与专用奖励模型简单得多,因此DPO模型要多得多。


请注意,现有排行榜和RewardBench之间的区别在于它们评估的指标。而其他排行榜评估通过奖励模型训练的得到的LLMs的问答和对话性能,RewardBench关注于用于训练这些LLMs的奖励分数。


03、

写在最后


我们探讨了两篇关于大型语言模型(LLMs)的最新研究论文:一篇讨论了持续预训练策略,另一篇介绍了评估奖励建模用于语言建模的基准。


首先,我们深入研究了持续预训练LLMs的策略,比较了三种不同的训练方法,并发现持续预训练方法可以在成本更低的情况下达到与重新训练相同的优良性能。这项研究揭示了重新加热和重新衰减学习率的重要性,以及在新数据集中添加原始预训练数据以防止灾难性遗忘的技巧。


其次,我们了解了奖励建模在RLHF中的应用,并介绍了奖励建模的基准——RewardBench。这个基准旨在评估奖励模型和DPO模型的性能,为研究人员提供了一个评估指导,以更好地选择和改进奖励模型。


最后,我们讨论了DPO与RLHF之间的区别,以及它们在实践中的应用和表现。尽管DPO模型在公共排行榜上往往名列前茅,但对于RLHF和奖励建模的深入研究仍然非常重要。


总的来说,这两篇论文提供了有关持续预训练LLMs和奖励建模的宝贵见解,并为未来的研究提供了新的方向和基准。随着我们对LLMs的理解不断深入,我们可以期待更多创新和突破,以提高模型的性能和可靠性。




53AI,企业落地应用大模型首选服务商

产品:大模型应用平台+智能体定制开发+落地咨询服务

承诺:先做场景POC验证,看到效果再签署服务协议。零风险落地应用大模型,已交付160+中大型企业

联系我们

售前咨询
186 6662 7370
预约演示
185 8882 0121

微信扫码

与创始人交个朋友

回到顶部

 
扫码咨询