微信扫码
与创始人交个朋友
我要投稿
技术报告链接:https://d1qx31qr3h6wln.cloudfront.net/publications/Nemotron_4_340B_8T.pdf
模型链接:https://huggingface.co/collections/nvidia/nemotron-4-340b-666b7ebaf1b3867caf2f1911
博客链接:https://blogs.nvidia.com/blog/nemotron-4-synthetic-data-generation-llm-training/
图1:Nemotron-4-340B-Base、Nemotron-4-340B-Instruct 和 Nemotron-4-340B-Reward 的比较
二、技术报告的简单介绍
2.1 背景
一个有前景的应用是合成数据生成,它已经在提高预训练数据质量方面显示出显著价值。例如,数据合成已被用于重述网络文本,生成文本质量分类器的训练数据,并为预训练集中代表性不足的领域创建数据。此外,由于收集人类标注数据的成本高昂,合成数据生成对于对齐至关重要。
2.2 预训练
2.2.1数据
2.2.2 架构细节
表 1:影响 Nemotron-4-340B-Base 大小的关键超参数
2.2.3 训练细节
Nemotron-4-340B-Base 使用 768 个 DGX H100 节点进行训练;每个节点包含 8 个基于 NVIDIA Hopper 架构的 H100 80GB SXM5 GPU(NVIDIA, 2022)。每个 H100 GPU 在进行 16 位浮点(bfloat16)运算且不考虑稀疏性时,峰值吞吐量为 989 万亿次浮点运算/秒。在每个节点内,GPU 通过 NVLink 和 NVSwitch(nvl)连接,GPU 间带宽为 900 GB/s(双向各 450 GB/s)。每个节点配备 8 个 NVIDIA Mellanox 400 Gbps HDR InfiniBand 主机通道适配器(HCAs),用于节点间通信。
表2:批量大小递增计划,以及Nemotron-4-340B-Base参数模型的耗时和效率指标
持续训练(Continued training)。NVIDIA发现,在模型训练结束时切换数据分布和学习率衰减计划可以显著提高模型质量。具体而言,在预训练了8万亿个token后,NVIDIA使用相同的损失目标,并对1万亿个额外token进行持续训练。
在持续训练的这一附加阶段中,NVIDIA采用了两种不同的数据分布。
2.4 基础模型评估
NVIDIA将模型与其他开放访问的基础模型进行比较,如Llama-3 70B、Mistral 8x22和Qwen-2 72B。以下是NVIDIA模型评估所针对的任务列表、类别及设置:
•流行综合基准:MMLU(5-shot)和BBH(3-shot)。
•常识推理:ARC挑战(25-shot)、Winogrande和Hellaswag(10-shot)。
•代码:HumanEval上的Pass@1分数(0-shot)
表3显示,Nemotron-4-340B-Base在常识推理任务以及如BBH等流行基准上实现了最高的准确率。此外,它在MMLU和如HumanEval的代码基准上也具有竞争力。
*表 3: 标准推理基准上的结果。带 * 的值取自 Qwen-Team (2024)*
2.3对齐
2.3.1 奖励模型
为了开发强大的奖励模型,NVIDIA收集了一个包含10k人类偏好数据的数据集,称为HelpSteer2,其方法类似于HelpSteer中所述。
Nemotron-4-340B-Reward在整体上的高分展示了NVIDIANemotron-4-340B-Base模型的强大能力、HelpSteer2数据集的高质量以及NVIDIA方法的有效性。
表4:模型在Reward Bench上的准确度。每个类别中,数值越高越好(Allen AI,2024)。Nemotron-4-340B-Reward在Reward Bench的主数据集上,特别是在挑战性的“困难聊天”类别中,达到了最高的准确度。需要注意的是,其在先前集合上的相对较低准确度可能是由于未使用这些数据集的训练数据
2.3.2 对齐数据
随着模型的不断改进,NVIDIA发现现有的宽容数据集对于训练最良好对齐的模型越来越不足。
此外,从人类那里收集高质量数据是一个耗时且成本高昂的过程。为了应对这一挑战,NVIDIA深入探讨了合成数据生成(SDG)作为解决方案。
在整个对齐过程中,NVIDIA仅依赖大约20K的人工标注数据(10K用于监督微调,10K Helpsteer2数据用于奖励模型训练和偏好微调),而NVIDIA的数据生成管道合成了超过98%用于监督微调和偏好微调的数据。
2.3.2.1 提示准备
生成合成提示是SDG中的重要第一步。这种方法使NVIDIA能够控制提示分布,以涵盖多样化的场景。提示多样性是多维的——它涉及任务多样性(例如,写作、开放式问答、封闭式问答)、主题多样性(例如,STEM、人文、日常生活)和指令多样性(例如,JSON输出、#段落、是或否答案)。为了确保这些维度的提示多样性,NVIDIA采用了与生成UltraChat数据集(Ding et al., 2023)类似的方法。
合成单轮提示生成。NVIDIA在图2中展示了生成合成提示的高级流程。为了收集多样化的话题,NVIDIA提示生成器输出一系列宏观话题。接着,NVIDIA要求生成器为每个合成的宏观话题输出相关的子话题。包括合成的宏观话题、子话题以及手动收集的话题,NVIDIA总共收集了3000个话题。
总体上,NVIDIA收集了12000个与Python相关的关键词和17000个与数学相关的关键词。然后,NVIDIA提示生成器针对每个关键词生成相关问题。在附录材料B中,NVIDIA分享了在这些流程中用于合成提示生成的提示。
图2:针对开放式问答、写作、封闭式问答、数学与编程的合成单轮提示生成,从左至右
合成指令遵循提示。指令遵循对于对齐模型至关重要。为了提高NVIDIA模型的指令遵循能力,NVIDIA生成合成指令遵循提示,例如“撰写一篇关于机器学习的文章。你的回答应包含三个段落。”具体而言,NVIDIA随机选择一组合成提示。对于每个合成提示,NVIDIA随机生成一个合成指令(例如,“你的回答应包含三个段落。”),这些指令来自Zhou等人(2023)中的“可验证”指令模板。
然后,NVIDIA将提示和指令通过手动定义的模板连接起来。除了单轮指令遵循提示外,NVIDIA还构建了多轮指令遵循提示,其中指令适用于所有未来的对话,例如,“根据以下指令回答问题及所有后续问题:[指令开始] 回答时包含三个段落图表。指令结束"。NVIDIA还构建了第二轮指令遵循提示,要求根据给出的指令修改先前的响应。
图3:Mixtral-8x7B-Instruct-v0.1的响应在合成提示和LMSYS提示下的帮助性分布
合成双轮提示。虽然在监督微调阶段对话数据集通常是多轮的,但偏好微调的偏好数据通常是单轮的。为了提高模型在偏好微调中的多轮对话能力,NVIDIA构建了双轮提示以构建偏好数据集。
真实世界LMSYS提示。为了更好地模拟真实世界的用户请求,NVIDIA还从LMSYS-Chat-1M(LMSYS)中抽取提示。NVIDIA将所有提示以平衡比例组合,并分为两个不同的集合,一个用于监督学习,另一个用于偏好学习,确保两者之间没有重叠。在监督学习分割中,NVIDIA进一步移除了LMSYS中被标记为可能不安全的提示,以避免引发不希望的对话。
然而,NVIDIA在偏好学习分割中保留了这些提示,允许模型学习区分安全和不安全的响应。在图3中,NVIDIA展示了合成单轮提示与LMSYS提示的比较。
2.3.2.2合成对话生成
监督微调使模型能够学习如何以对话格式与用户交互。NVIDIA通过提示指令模型根据输入提示生成响应来启动合成对话。为了培养多轮对话能力,NVIDIA设计每个对话包含三个回合,从而创建一个更动态和互动的对话流程。通过迭代角色扮演,模型在模拟助手和用户角色之间交替。
2.3.2.3 合成偏好数据生成
NVIDIA使用1OK人类标注的HelpSteer2偏好数据来训练Nemotron-4-340B-Reward,但NVIDIA也需要具有更广泛提示域的偏好数据,这些数据来自NVIDIA顶级中间模型的高质量响应,并在可用时提供额外的地面真实信号。因此,NVIDIA努力生成三元组形式的合成偏好数据(提示,选定响应,拒绝响应)。
响应生成。偏好数据包含合成单轮提示、遵循指令的提示、两轮提示,以及包括ShareGPT提示、LMSYS提示、以及来自GSM8K和MATH训练数据集的提示等真实世界提示。对于每个提示,NVIDIA使用多个随机中间模型生成响应。利用多个模型生成响应确保偏好数据集为模型学习提供多样化的响应。
地面真实作为评判者。对于每个提示的多个响应,NVIDIA需要判断它们的偏好排名并选择选定和拒绝的响应。某些任务可以使用地面真实标签(例如,GSM8K和MATH训练数据集中的答案)或验证器(例如,遵循指令的响应可以通过Python程序验证)进行评估,NVIDIA使用地面真实/验证器来判断每个响应的正确性。NVIDIA将正确的响应选为选定的响应,错误的响应选为拒绝的响应。
LLM-as-Judge 与 Reward-Model-as-Judge 大多数提示并没有客观答案。具体而言,在难以区分选定和拒绝响应的 Chat-Hard 类别中,Reward-Model-as-Judge 的表现远优于 LLM-as-Judge,平均准确率为 0.87 对 0.54。NVIDIA注意到,Chat-Hard 类别的分数对于合成数据生成中的偏好排名尤为重要。因此,NVIDIA在后续数据集迭代中转而使用 Reward-Model-as-Judge。
3.2.4 迭代式弱到强对齐
如前所述,高质量数据对模型对齐至关重要。在数据合成中,对齐的 LLM 需要在整个生成流程中准确遵循指令。这引发了一些重要问题:哪种模型最适合作为生成器;生成器强度与数据质量的关系如何;以及NVIDIA如何改进数据生成器。受弱到强泛化(Burns 等人,2023)的启发,NVIDIA开发了一种新颖的迭代方法,逐步优化NVIDIA的数据。该方法结合了对齐训练和数据合成的优势,使它们相互增强,推动持续改进。
图4:展示NVIDIA提出的迭代弱到强对齐工作流程
图4说明了迭代弱到强对齐的工作流程。这里的模型质量(无论它被认为是弱还是强)是由多个评估指标的组合定义的,与模型大小无关。一个初始对齐的模型被用作对话和偏好数据的生成器。然后,这些数据被用于通过监督微调和偏好调整来对齐一个更好的基础模型。有趣的是,NVIDIA发现教师模型并没有给学生模型设定上限。具体来说,随着基础模型和调整数据被精炼,新对齐的模型能够显著超越初始对齐的模型。
对齐过程与基础模型预训练是并行进行的。在第一轮迭代中,NVIDIA选择Mixtral-8x7B-Instruct-v0.1作为初始对齐模型,因为它已被证明是一个具有宽松许可的强大模型。生成的数据被用来训练Nemotron-4-340B-Base的一个中间检查点,称为340B-Interm-1-Base。值得注意的是,340B-Interm-1-Base超越了Mixtral 8x7B基础模型,从而使得生成的340B-Interm-1-Instruct模型能够超越Mixtral-8x7B-Instruct-v0.1模型。这反映了NVIDIA可以通过弱监督激发出强大的能力。
在第二轮迭代中,NVIDIA利用生成的340B-Interm-1-Instruct模型作为新的数据生成器。鉴于其相较于Mixtral-8x7B-Instruct-v0.1的增强能力,第二轮迭代产生的合成数据在质量上优于第一轮迭代所产数据。所得数据用于训练340B-Interm-2-Base,使其发展为340B-Interm-2-Chat。
此迭代过程形成一个自我强化的飞轮效应,改进可归因于两个方面:(1) 当使用相同数据集时,基础模型的强度直接影响指令模型,更强的基础模型产生更强的指令模型;(2) 相反,当使用相同基础模型时,数据集的质量对指令模型的有效性至关重要,高质量数据导致更强的指令模型。在整个对齐过程中,NVIDIA进行了多轮数据生成与精炼,持续提升模型质量。
2.3.2.5 附加数据源
NVIDIA整合了若干补充数据集,以赋予模型特定能力,如下所列。
主题跟随。主题一致性与细粒度指令跟随是指导模型的关键能力。NVIDIA引入了Cant的训练集,该数据集包含涵盖广泛主题的合成对话,并有意穿插干扰轮次以使聊天机器人偏离主要话题。此数据集有助于增强模型在任务导向交互中保持专注目标主题的能力。
无法完成的任务。由于需要特定的能力,如互联网访问或实时知识,某些任务可能对模型来说是不可能独立完成的。为了在这些情况下减少幻觉,NVIDIA采用少量样本方法,使用人类编写的示例(见补充材料A)来提示大型语言模型(LLM)生成一系列多样的问题。然后NVIDIA明确要求LLM拒绝回答,收集这些响应并将其与相应的问题配对。这种配对数据用于训练NVIDIA的模型,使其能更好地处理无法完成的任务。
STEM数据集。Open-Platypus已被证明能提高STEM和逻辑知识。NVIDIA将具有宽松许可的子集(PRM800K),SciBench,ARB,openbookQA纳入NVIDIA的训练数据。
基于文档的推理和问答。文档基础的问答是LLMs的一个重要应用场景。NVIDIA利用FinQA数据集(Chen 等人, 2021b)来提高数值推理能力,使用(Liu 等人, 2024)中的人工标注数据来提升上下文问答的准确性,并使用wikitablequestions数据集来加强模型对半结构化数据的理解。
函数调用。从(Glaive AI, 2023)中选取一部分样本,以增强模型在函数调用方面的能力。
2.3.3 对齐算法
NVIDIA采用标准协议(Ouyang 等人, 2022)进行模型对齐,该过程包括两个阶段:监督微调(Supervised Fine-tuning, SFT)和偏好微调(Preference Fine-tuning)。本节将详细阐述底层算法并介绍NVIDIA的创新训练策略。
2.3.3.1 分阶段监督微调
监督微调(SFT)是对齐的第一步。传统上,SFT在一个阶段内进行,数据集包含来自所有任务的样本混合。然而,NVIDIA的实验结果表明,同时学习多种行为有时会导致它们之间的冲突,从而阻止模型在所有任务上同时达到最佳对齐。NVIDIA在编码任务中特别强烈地观察到这一现象,其中调整数据混合的采样权重未能使模型与所有编码任务对齐。为了解决这个问题,NVIDIA设计了一个两阶段的SFT策略,使模型能够按顺序和有意识地获取不同的行为。NVIDIA发现这种方法在所有下游任务上都取得了更优的结果。
代码SFT(监督微调)。为了在不干扰其他任务的情况下提升编码和推理能力,NVIDIA首先在编码数据上纯粹进行SFT。NVIDIA发现,要有效提升模型的编码能力,需要大量数据。为了有效合成编码数据,NVIDIA开发了遗传指令,这是一种模拟进化过程的方法,利用自我指导和巫师编码者变异,从有限数量的高质量种子中创建大量合成样本。
通用SFT。在第二阶段,NVIDIA进行通用SFT,利用包含多种任务的20万样本混合数据集,如第3.2节所述。为了降低遗忘风险,数据混合还包括了前一阶段代码SFT中2%的代码生成样本。NVIDIA使用全局批量大小128训练模型三个周期,并在[1e-7, 5e-7]范围内进行LR搜索。对于这两个阶段,NVIDIA屏蔽用户回合,仅在助手回合上计算损失。
2.3.3.2 偏好微调
在监督微调阶段之后,NVIDIA继续通过偏好微调来改进模型,其中模型学习以(提示,选定响应,拒绝响应)三元组形式的偏好示例(Ouyang et al., 2022; Bai et al., 2022)。具体而言,NVIDIA的偏好微调阶段涉及多个模型改进迭代,使用直接偏好优化(Rafailov et al., 2024)和NVIDIA新的对齐算法——奖励感知偏好优化。
直接偏好优化(Direct Preference Optimization,DPO)。DPO(Rafailov 等人,2024年)算法优化策略网络,以最大化所选与被拒绝响应之间的隐式奖励差距。在策略学习区分所选和被拒绝响应的过程中,NVIDIA观察到,随着两者差距的增加,所选和被拒绝响应的可能性均持续下降,即使所选响应质量较高。为了避免模型学习到低质量的所选响应,当没有真值时,NVIDIA使用Nemotron-4-340B-Reward来挑选高质量的所选响应示例。这导致了一个包含16万例子的偏好数据集,涵盖了多种任务。NVIDIA对该模型进行了一轮训练,全局批量大小为256,学习率恒定。NVIDIA调整了学习率在[3e-8, 3e-7]范围内,DPO损失中的KL正则化系数在[3e-4, 3e-3]范围内,以及SFT损失的权重在[1e-5, 1e-3]范围内。
奖励感知偏好优化(Reward-aware Preference Optimization,RPO)。NVIDIA的偏好数据大部分是合成的,其偏好排序是根据Nemotron-4-340B-Reward的奖励来判断的。尽管DPO仅使用两个响应之间的二元顺序,但奖励之间的差异包含了更多信息。从经验上看,NVIDIA观察到一些被拒绝的响应仅略逊于被选中的响应,而有些被拒绝的响应则远远落后。忽视这种质量差距,DPO试图最大化被选中和被拒绝响应之间的隐含奖励差距,这导致过度拟合和不必要求解高质量的被拒绝响应。为解决这一问题,NVIDIA提出了一种新算法——奖励感知偏好优化(RPO),它试图通过策略网络定义的隐含奖励(Rafailov等人,2024)来近似奖励差距。
2.3.4 指令模型评估
2.3.4.1 自动基准测试
NVIDIA对Nemotron-4-340B-Instruct在广泛的自动基准测试上进行了全面评估。本节中,NVIDIA将报告NVIDIA模型的结果,并与开源模型(Llama-3-70B-Instruct, Mixtral-8x22B-Instruct-v0.1 , Qwen-2-72B-Instruct )和专有模型(GPT4-1106-preview, Mistral Large , Claude-3-Sonnet )进行比较。以下是NVIDIA评估模型所针对的任务列表、类别及设置:
•单轮对话:AlpacaEval 2.0 LC 和 Arena Hard。
•多轮对话:MT-Bench。请注意,这是原始MT-Bench (Zheng et al., 2024a) 的修正版本,平均分数比原始MT-Bench低0.8分。具体而言,NVIDIA发现推理、数学、编程类别中的30个参考答案中有13个不正确,这显著影响了准确评估。修正后的答案包含在https://github.com/lm-sys/FastChat/pull/3158中。
•流行综合基准:MMLU (0-shot)。
•数学:GSM8K (0-shot)。
•代码:HumanEval (0-shot)和 MBPP (0-shot) 的 Pass @1 分数。
•指令遵循:TFEval (Zhou et al., 2023)。
•主题遵循:TFEal (Sreedar et al., 2024)。
表5:指令模型在自动基准测试上的评估结果。粗体表示所有模型中的最高分,下划线表示开源模型中的最高分
如表5所示,Nemotron-4-340B-Instruct 在与当前可用的开源模型竞争中表现出色。对于指令模型,NVIDIA认为零样本评估是最重要的设置,因为它评估了模型在没有先前示例的情况下准确遵循指令的能力。这种设置更接近于人们在现实世界中与大型语言模型(LLMs)交互的方式。为了透明性和可重复性,NVIDIA在补充材料E中包含了用于评估的提示。
NVIDIA的对齐训练涉及多个阶段:代码监督微调(Code SFT)、通用监督微调(General SFT)、直接偏好优化(DPO)以及三轮反向偏好优化(RPO)。NVIDIA观察到,CodeSFT阶段将HumanEval从基础模型的57.3显著提高到70.7。随后的General SFT在MT-Bench和MMLU等其他类别中大幅提高了准确性,但对HumanEval略有下降。DPO步骤进一步提高了大多数指标,但在MT-bench上略有下降。最后,RPO步骤统一提升了所有指标。具体来说,MT-Bench从7.90增加到8.22,IFEval Prompt-Strict-Acc从61.7增加到79.9。
表6:对齐过程中每个中间模型的评估结果,其中最后一列对应于NVIDIA的Nemotron-4-340B-Instruct
2.3.4.2 人工评估
除了自动评估外,NVIDIA还通过一支专业的训练有素的标注团队对NVIDIA的模型进行了人工评估。这些标注者面对136个提示,分为10个不同的任务类别,并使用6点李克特量表评估响应。该量表包括五个质量级别,以及一个额外的级别,用于模型完全未能遵循指令的情况。
图5:人类评估比较Nemotron-4-340B-Instruct与GPT-4-1106-preview在十个任务类别上的表现。NVIDIA绘制了总体胜率以及每个类别的胜率。
关于人类评估的次要终点,即标注者对响应长度的感知,可参见表7。结果显示,相较于GPT-4-1106-preview,标注者认为Nemotron-4-340B-Instruct的适当响应长度比例略高(79.41%对74.02%)。值得注意的是,这一优势主要来源于长/冗余响应的比例较低(20.10%对25.74%)。
表7:关于响应长度感知的人类评估结果。下划线表示感知到适当长度比例较高的模型
2.3.4.3 安全评估
随着大型语言模型(LLMs)的广泛应用,与之相关的安全风险也随之增加。为了评估NVIDIA模型的安全性,NVIDIA采用了NVIDIA的高质量内容安全解决方案和评估基准AEGIS。NVIDIA还引入了一个新类别“需要谨慎”,以处理缺乏足够上下文来确定安全性的模糊情况。。AEGIS安全模型是一组开源的LlamaGuard(Inan et al., 2023)LLM基分类器,它们进一步以参数高效的方式根据AEGIS安全分类法和政策进行了指令调整。
图6:AEGIS安全评估中所有模型响应中不安全响应的百分比。数值越低越好。
使用AEGIS测试分区中的提示来引发Nemotron-4-340B-Instruct和Llama-3-70B-Instruct的响应。然后,这些响应由AEGIS安全模型进行评判。在图6中,NVIDIA报告了Nemotron-4-340B-Instruct和Llama-3-70B-Instruct在总响应数量中不安全响应的百分比。NVIDIA展示了Nemotron-4-340B-Instruct的不安全响应率非常低。
在记录的不安全响应中,Nemotron-4-340B-Instruct在暴力、自杀和自残、性少数群体、个人识别信息(PII)、骚扰、威胁以及需要谨慎的类别中几乎可以忽略不计。在少数不安全响应中,有一些响应属于犯罪计划和受管制物质类别。NVIDIA计划在后续的模型更新中缓解这些问题。总体而言,根据NVIDIA的评估,Nemotron-4-340B-Instruct在安全性方面与Llama-3-70B-Instruct相当。
53AI,企业落地应用大模型首选服务商
产品:大模型应用平台+智能体定制开发+落地咨询服务
承诺:先做场景POC验证,看到效果再签署服务协议。零风险落地应用大模型,已交付160+中大型企业
2024-08-13
2024-05-28
2024-04-26
2024-08-21
2024-06-13
2024-08-04
2024-07-09
2024-09-23
2024-07-18
2024-04-11