AI知识库

53AI知识库

学习大模型的前沿技术与行业应用场景


NVIDIA Nemotron-4 340B 开源技术报告 | 你想要的都在这里
发布日期:2024-06-18 05:08:42 浏览次数: 1886


上周,NVIDIA 更新了其最新的开源超大模型 Nemotron-4 340B,这次不仅放出了大模型的参数,也放出了全套预训练、对齐和奖励模型的训练代码,同时还有一份详细的技术报告!在 OpenAI 正在内部讨论要不要“CloseAI”的当下万分难得。现在,就跟着机智流一起来看下这篇诚意满满的技术报告吧。

关注机智流,并在后台回复 "340B" ,即可获取论文、模型和代码地址!

摘要

我们发布了 Nemotron-4 340B 模型系列,包括 Nemotron-4-340B-Base、Nemotron-4-340B-Instruct 和 Nemotron-4-340B-Reward。这些模型根据 NVIDIA 开源模型许可协议(类似 Apache 2.0 协议)向社区进行开源。这些模型在众多的评估基准上与其他开源模型表现出了相似的竞争力,并能够以 FP8 精度部署在单个 DGX H100(配备8个GPU) 。我们相信,这些模型可以在各种研究和商业应用中为社区带来益处,特别是在生成合成数据以训练较小的语言模型方面。特别的是,我们在模型对齐过程中使用的数据中,有超过 98% 是通过合成生成的,这展示了这些模型在合成数据方面的有效性。为了进一步支持开源研究和促进模型开发,我们还将继续开源用于模型对齐过程的合成数据和生成管道。

在这个合成数据生成管道中,首先使用 Nemotron-4 340B Instruct 模型生成合成文本输出。然后,评估模型 Nemotron-4 340B Reward 对生成的文本进行评估,提供反馈以指导迭代改进,确保合成数据准确、相关,并符合特定要求。

1 引言

大型语言模型(LLMs)在多种应用中的许多任务上都非常有效。近期的研究多集中在通过在更多、更高质量的 token 上预训练来提高这些模型的准确性。例如,Llama-2 系列在 2T token 上进行训练,而 Llama-3 系列在 15T token 上进行了训练。我们的 Nemotron-4 340B 基础模型则是用约 9T token 的高质量数据进行训练。

我们通过监督式微调(SFT)对基础大型语言模型(LLM)进行对齐,然后进行偏好微调,如通过人类反馈强化学习(RLHF)直接偏好优化(DPO)。对齐过程使模型能够更好地跟随指令,有效进行对话,并更好地解决问题。对齐过程依赖于能够准确识别响应质量的奖励模型。这个奖励模型是 RLHF 的关键组成部分,也是合成数据生成中质量过滤和偏好排序的有用工具。

为了支持社区中大型语言模型的持续发展,我们引入了 Nemotron-4-340B-Base (基础模型)、Nemotron-4-340B-Instruct (指令对齐模型)和 Nemotron-4-340B-Reward (奖励模型),这些模型以开源模型的形式发布。图 1 显示了 Nemotron-4 340B 模型系列在特定任务中的准确性。具体来说,我们展示了 Nemotron-4-340B-Base 在常识推理任务(如 ARC-Challenge、MMLU 和 BigBench Hard 基准测试)上与 Llama-3 70B、Mixtral 8x22B 和最近发布的 Qwen-2-72B Base 等开源基础模型的竞争力。Nemotron-4-340B-Instruct 在指令跟随和聊天能力方面超过了相应的指令模型。Nemotron-4-340B-Reward 在发布时在 RewardBench上达到了最高的准确性,甚至超过了 GPT-4o-0513 和 Gemini 1.5 Pro-0514 等专有模型。我们也同步发布了我们的奖励模型,以支持社区中大型语言模型的持续发展。

这些模型在合成数据的生成方面拥有广阔的前景,已在改善预训练数据质量方面显示出了巨大的价值。例如,数据合成已被用于重述网络文本、为文本质量分类器生成训练数据以及为在预训练集中代表性不足的领域创建数据。此外,合成数据生成对于对齐至关重要,因为收集人工标注数据的成本很高。我们大量使用合成数据来构建 Nemotron-4-340B-Instruct:我们在对齐过程中使用的超过 98% 的训练数据是通过合成生成的。除了分享我们的模型和对齐策略,我们还发布了我们的合成数据生成管道,其中包括合成提示生成、响应和对话生成、质量过滤和偏好排序。该管道旨在支持监督式微调和偏好微调,我们相信它有潜力通过使创建的高质量数据适应广泛的领域,从而惠及社区。

通过发布 Nemotron-4-340B-Base、Nemotron-4-340B-Instruct 和 Nemotron-4-340B-Reward,并分享我们的合成数据生成管道,我们希望鼓励对大型、功能强大的模型的广泛开源,以加速 AI 应用的开发以及 LLMs 的负责任使用的研究进展。我们致力于负责任的开发实践,并不希望模型被用于生成有害或有毒的内容。

贡献总结:

  • 我们在 NVIDIA 开放模型许可协议下 发布了 Nemotron-4 340B 模型系列,包括 Nemotron-4-340B-Base、Nemotron-4-340B-Instruct 和 Nemotron-4-340B-Reward,适用于商业应用。
  • 我们发布了这些模型的训练和推理代码,以促进透明度和可重复性。
  • 我们提供了关于我们合成数据生成管道的全面细节,并展示了其在模型对齐中的有效性。我们还分享了我们的生成提示、人工标注的偏好数据集和 Nemotron-4-340B-Reward,用于质量过滤和偏好排序。未来,我们将分享更多工具,如 NVIDIA 推理微服务(NIMs)用于合成数据生成。

2 预训练

2.1 数据

我们的预训练数据包括了三种不同类型的数据:英语自然语言数据(70%)、多语种自然语言数据(15%)和源代码数据(15%)。英语语料库来自各来源和领域的精选文档组成,包括网页文档、新闻文章、科学论文、书籍等。我们的多语种数据包含53种自然语言,由单语种和平行语料库的文档组成,而我们的代码数据集由 43 种编程语言组成。我们在这些数据上总共训练了 9T token,其中前 8T token 用于正式的预训练阶段,1T token 用于持续预训练阶段。有关我们训练语料库和策划程序的更详细分解,我们参考了 Parmar 等人的研究, Nemotron-4-340B-Base 与 Nemotron-4-15B-Base 遵循相同的数据构成。

2.2 架构细节

Nemotron-4-340B-Base 的架构与 Nemotron-4-15B-Base相似。它是一个标准的解码器 Transformer 架构,具有因果注意力掩码,使用旋转位置嵌入(RoPE),SentencePiece 分词器,以及在 MLP 层中使用平方 ReLU 激活。没有使用 bias,dropout 为零,并且输入输出嵌入是未绑定的。我们也使用了分组查询注意力(GQA)。Nemotron-4-340B-Base 的超参数如表1所示,有 94 亿嵌入参数和 3316 亿非嵌入参数。

2.3 训练细节

Nemotron-4-340B-Base 使用 768 个 DGX H100 节点进行训练的;每个节点包含 8 个基于 NVIDIA Hopper 架构的 H100 80GB SXM5 GPU。每个 H100 GPU 进行 16位浮点(bfloat16)算术时具有 989 teraFLOP/s 的峰值吞吐量,不包括稀疏性。在每个节点内,GPU 通过 NVLink 和 NVSwitch(nvl)连接;GPU 到 GPU 的带宽为 900 GB/s(每方向 450 GB/s)。每个节点有 8 个 NVIDIA Mellanox 400 Gbps HDR InfiniBand 主机通道适配器(HCAs)用于节点间通信。

我们使用 8 路张量并行、12 路流水线并行与交错和数据并行的组合来训练模型;我们还使用分布式优化器在数据并行副本上分片优化器状态,减少训练的内存占用。随着批量大小的增加,数据并行度从 16 扩展到 64。表2 总结了批量大小增加的3个阶段,并包括每次迭代的时间和模型 FLOP/s 利用率(MFU)。MFU 量化了 GPU 在模型训练中的利用效率,100% 是理论峰值。

  • 继续训练。我们发现,在模型训练结束时切换数据分布和学习率衰减计划可以显著提高模型质量。具体来说,在预训练了 8T token 之后,我们使用相同的损失目标,并在额外的 1T token上进行继续训练。

在这个继续训练的额外阶段,我们利用两种不同的数据分布。第一种分布构成了继续训练 token 的大部分,并利用在预训练期间已经引入的 token,但是将更大的采样权重放在更高质量的来源上。第二种分布引入了少量的问答风格的对齐示例,以更好地允许模型在下游评估中响应这类问题,同时也加大了来自模型准确度低的领域的数据来源的权重。我们同事也调整了学习率计划,该计划优先考虑衰减的陡峭程度而不是学习率的大小,我们发现这样的排序和数据分布的风格允许模型从预训练数据集温和过渡,并更好地从训练最后阶段引入的数据中学习。

2.4 基础模型评估

在本节中,我们展示了 Nemotron-4-340B-Base 的评估结果。我们将我们的模型与其他开源基础模型进行了比较,如 Llama-3 70B、Mistral 8x22 和 Qwen-2 72B。以下是我们评估模型的任务列表和设置:

  • 主流综合基准测试:MMLU(5-shot)和 BBH(3-shot)。
  • 常识推理:ARC 挑战(25-shot)、Winogrande(5-shot))和 Hellaswag(10-shot)。
  • 代码:HumanEval(0-shot) Pass@1 Score。

我们遵循所有评估的标准化任务设置。我们使用 LM-Evaluation Harness 在所有前述任务中评估 Nemotron-4-340B-Base。表 3 展示了 Nemotron-4-340B-Base在常识推理任务以及像 BBH 这样的流行基准测试上取得了最好的成绩。此外,在 MMLU 和 HumanEval 代码基准测试上我们的模型也展现了竞争力。



53AI,企业落地应用大模型首选服务商

产品:大模型应用平台+智能体定制开发+落地咨询服务

承诺:先做场景POC验证,看到效果再签署服务协议。零风险落地应用大模型,已交付160+中大型企业

联系我们

售前咨询
186 6662 7370
预约演示
185 8882 0121

微信扫码

与创始人交个朋友

回到顶部

 
扫码咨询