我要投稿

NVIDIA NeMo-Aligner | 高效强化学习推动大型语言模型校准技术革新

发布日期：2024-05-10 20:09:21 浏览次数： 2264 作者：奇点智源

点击

上方蓝字关注我们

## NVIDIA 推出的 NeMo-Aligner 工具，利用强化学习和分布式计算技术，优化大语言模型与人类偏好对齐的训练流程，有效提升训练效率并确保模型输出安全可靠的回复。

论文介绍

大型语言模型 (LLMs) 研究领域强调将这些模型与人类偏好相一致，以产生有用、无偏见和安全的响应。研究人员在训练 LLM 理解、领会和与人类生成的文本进行交互的能力方面取得了重大进展，从而增强了人机之间的沟通。

NLP 的一个主要挑战是教 LLM 提供与人类偏好一致的响应，避免偏见，并生成有用且安全的答案。监督微调提供了一种改进模型行为的基础方法，但要实现与人类偏好的真正一致，则需要更复杂的方法。复杂的流程，尤其是来自人类反馈的强化学习 (RLHF)，通常是改进这些模型所必需的，但它们的技术复杂性和巨大的资源需求可能会阻碍更广泛的采用。

虽然 HuggingFace TRL 和 DeepSpeedChat 等工具为模型对齐提供了宝贵的资源，但它们缺乏管理当今大型模型所需的可扩展性和性能。现代 LLM 的复杂性和规模需要专门的、优化的解决方案，以有效地处理其训练需求，从而使研究人员能够专注于微调模型行为，而不会受到技术限制的阻碍。

NVIDIA 的研究人员介绍了 NeMo-Aligner，这是一种旨在使用强化学习简化大型 LLM 训练过程的新工具。该工具利用 NVIDIA 的 NeMo 框架优化整个 RLHF 流程，从监督微调到奖励模型训练和近端策略优化 (PPO)。该团队专注于优化并行性和分布式计算技术，从而开发出一种能够有效管理大型模型训练中固有复杂性的工具。它可以跨不同集群分配计算工作负载，从而充分利用可用硬件。

NeMo-Aligner 的架构旨在使模型对齐更易于访问和更高效。该工具包含各种优化，以支持 RLHF 流程的多个阶段。例如，它将训练流程分为三个阶段：

监督微调
奖励模型训练
PPO

在 PPO 期间，它会在数据并行工作者之间动态平衡工作负载，从而显着提高训练效率。通过集成先进的分布式计算策略，NeMo-Aligner 可以有效地处理大型模型，在 PPO 期间使用 PyTriton 服务器在模型之间进行通信。

NeMo-Aligner 的性能结果突出了其显着的效率提升，尤其是在 PPO 阶段。与传统方法相比，TensorRT-LLM 集成将训练时间缩短了七倍，证明了这种优化的显着影响。该框架还具有可扩展性，使用户能够快速将其适应新算法。该工具支持训练多达 700 亿个参数的模型，使研究人员能够以更高的效率和更短的训练时间处理前所未有的规模。

研究人员通过将 NeMo-Aligner 与各种对齐算法（如监督微调、直接偏好优化和 SPIN）集成，展示了其可扩展性。这种适应性使该工具能够支持不同的优化策略，例如使用属性预测模型来使模型在正确性和毒性等语义方面与人类偏好保持一致。NeMo-Aligner 的方法使得以有针对性的、数据驱动的方式增强模型响应成为可能。