AI知识库

53AI知识库

学习大模型的前沿技术与行业应用场景


PERL = LoRA + RLHF
发布日期:2024-05-02 21:20:09 浏览次数: 1818


谷歌AI提出了一种参数高效的强化学习方法PERL,该方法利用LoRA训练奖励模型及RL微调语言模型策略,该方法可在维持传统RLHF方法性能的同时显著降低计算资源与内存需求。


论文介绍

从人类反馈中进行强化学习 (RLHF) 增强了预训练大语言模型 (LLM) 与人类价值观的一致性,从而提高了它们的适用性和可靠性。然而,由于过程的计算密集性和资源需求,通过 RLHF 来调整 LLM 面临着重大障碍。使用 RLHF 训练 LLM 是一项复杂且资源密集型的任务,这限制了它的广泛采用。

为了克服现有的局限性,已经开发出了不同的技术,如 RLHF、RLAIF 和 LoRA,。RLHF 的工作原理是对首选输出拟合奖励模型,并使用 PPO 等强化学习算法训练策略。为训练奖励模型标注示例可能成本高昂,因此一些工作用 AI 反馈代替了人类反馈。高效参数微调 (PEFT) 方法可以减少 PLM 中的可训练参数数量,同时保持性能。LoRA 是一种 PEFT 方法的示例,它将权重更新分解为可训练的低秩矩阵,从而只训练总参数的一小部分。

Google 的研究团队引入了一种革命性的方法,即高效参数强化学习 (PERL)。这种创新方法利用 LoRA 更有效地改进模型,保持传统 RLHF 方法的性能,同时显著降低计算和内存需求。PERL 允许选择性地训练这些适配器,同时保留核心模型,从而大幅减少训练所需的内存占用和计算负载,同时不会影响模型的性能。

PERL 通过在广泛的数据集上实施 LoRA 来提高参数效率,从而彻底改变了 RLHF 模型的训练。它利用了多种数据,包括 Reddit TL;DR 和 BOLT English SMS/Chat 的文本摘要、无害响应偏好建模、斯坦福人类偏好数据集的帮助指标,以及从人类演示中派生的 UI 自动化任务。PERL 利用众包的 Taskmaster 数据集,专注于咖啡订购和票务场景中的对话交互,以改进模型响应。

研究表明 PERL 在与传统 RLHF 结果保持一致方面的效率,显著降低了大约 50% 的内存使用,并将奖励模型训练加速了 90%。LoRA 增强的模型与经过充分训练的模型的准确性相匹配,同时峰值 HBM 使用量减少了一半,训练速度提高了 40%。从质量上看,PERL 保持 RLHF 的高性能,同时降低了计算需求,为采用 Mixture-of-LoRA 等集成模型提供了有希望的途径,以实现稳健、跨域的泛化,并采用权重平均的适配器来降低计算成本的奖励黑客风险。

总之,谷歌的 PERL 方法标志着将 AI 与人类价值观和偏好相一致的重要飞跃。通过减轻与 RLHF 相关的计算挑战,PERL 提高了 LLM 的效率和适用性,并为 AI 调整的未来研究设定了新的基准。PERL 的创新生动地说明了高效参数方法如何彻底改变人工智能的格局,使其更易于使用、更高效、更符合人类价值观。

论文下载

在公众号后台或文章末尾,发送消息『 0009』可自动获取 论文 链接。

⇩ 关注「奇点智源」,探索「人工智能」⇩ 


53AI,企业落地应用大模型首选服务商

产品:大模型应用平台+智能体定制开发+落地咨询服务

承诺:先做场景POC验证,看到效果再签署服务协议。零风险落地应用大模型,已交付160+中大型企业

联系我们

售前咨询
186 6662 7370
预约演示
185 8882 0121

微信扫码

与创始人交个朋友

回到顶部

 
扫码咨询