Llama 3模型作者在智源大会的分享

发布日期：2024-06-17 19:35:37 浏览次数： 1664

来源 | 智源社区、夕小瑶科技说整理

或许，AGI正是我们这代人的「哥白尼革命」。就像当初人类发现地球其实没什么特别的，只是一个位于普通星系之中，围绕普通恒星旋转的普通行星。AI也没有什么疯狂的，只是一堆矩阵运算罢了。

这是Meta研究科学家，Llama 2、3系列工作作者Thomas Scialom博士在2024智源大会上的报告结语，他这番颇具文学色彩的表达引发了在场听众的无限遐思。

文艺青年Thomas博士甚至还用Llama做了一首短诗送给大家，

硅基圣殿之中

沉睡着语言的巨兽，

他们是智慧的产物。

在他的演讲「大语言模型的昨天、今天和明天（Large Language Models: Past Present and Future」中，Thomas 通过对 OpenAI、DeepMind、Meta 等顶级研究机构明星产品的分析完整梳理了 LLM 近年来从萌芽到爆发的发展脉络，重点剖析了 Llama 2 等模型成功背后的 SFT、RLHF 等技术的细节和作用，同时从多模态模型、Agent、机器人等角度分享了对 LLM 领域未来发展的预期。

大语言模型简史：科幻时刻到来

首先，我们不如回顾一下自己所处的历史方位。LLM 的发展一日千里。就在一年半以前，ChatGPT 才刚问世；一年前，Llama 2 发布。从未有发展速度如此之快的技术。牛津大学哲学家哲学家 Nick Bostrom 曾说：“当这项技术起作用时，它就不再是 AI 了。”

我很喜欢这个定义。我们可以根据 AI 系统降低其任务科幻性的程度来衡量其影响力。在 ChatGPT 之后，人类历史出现了一个转折点：AI 真实地发挥作用，但仍然在某种程度上对人们来说保持着科幻色彩。

我们不妨回顾一下大语言模型的历史。本质上，大语言模型是以自监督方式训练利用收集到的数据训练基于 Transformer 开发的架构，计算预测下一个 Token 的损失。

我们可以通过两种方式扩展模型规模：增加权重参数量或训练数据量。在 GPT-3 的论文中，OpenAI 测试了扩大模型规模和增大每个训练步骤上的 Batch Size、增加训练步数所带来的影响。

如上图所示，蓝色的部分（模型参数量的规模）影响最大。于是研究者全力投入模型规模的扩展，将参数量规模从 GPT-2 的不到 10 亿参数提升到了 GPT-3 的1750 亿参数。

他们发现，在不改变训练数据、训练步数等设置的情况下，仅仅通过增大模型参数量的规模就可以提升模型预测的准确性。这就是我们熟知的 Scaling 策略之一。通过这种方式，甚至可以直接实现一些专用模型非常好的性能表现。至此，扩大模型权重参数量成为了一种普遍做法。

然而，DeepMind 在论文「Training Compute-Optimal Large Language Models」中提出了 Chinchilla，指出了 OpenAI 上述分析的错误和实验的缺陷：在上述分析框架下，OpenAI 忽略了在训练过程中适配学习率调度策略的重要性，没有为较小模型设置合适的学习率。事实上，扩大训练数据规模也有巨大的影响。「Scaling Law」告诉我们，当我们扩大模型权重参数规模时，也希望扩大训练数据的规模，在二者之间实现一定的平衡。

DeepMind 之前发布的 Gopher，模型参数量高达 2000 亿，训练消耗了大量计算资源。DeepMind 认为：给定相同的计算成本，最优的训练方法应该是使用更多数据训练参数量更小的模型 —— Chinchilla（约 700 亿参数）。

原先的计算资源分配并非最优，相较于之前的策略，Chinchilla 的计算资源分配方式能够显著提升性能。DeepMind 在模型参数量和数据量之间实现了最优的资源配置，最大程度上提升了模型的性能。

接着，在 Llama 项目中，我们重新思考了计算资源的优化。如下图所示，随着参数量不断增大，训练的损失函数值不断下降。

尽管我们能在给定计算资源的条件下，找到使训练效果最优的平衡点，但这些工作还是为了在论文中展现出最佳的训练效果。

对于 LIama 而言，如果要让数十亿用户能够实际应用这些模型，推理阶段的效率与训练阶段的效率同样重要。

我们从数据和权重参数两方面来思考这个问题。在训练阶段，我们可以在两者之间实现理想的平衡；而在推理阶段，越多的权重参数意味着需要更大的计算量，但我们确实可以在不影响推理时间的条件下灵活调整训练数据的规模。我们可以使用无限的数据来训练模型，而这对推理时间没有任何影响。我们在某种程度上对模型进行了“过度训练”，从而我们获得了小巧且高效的模型。

在这样的理念的指导下，LIama 系列模型可以在树莓派这样的小型终端设备上实现媲美 GPT-3 的性能。在此基础上衍生出的 Alpaca、vLlama 等模型的累计下载量已超过 5000 万次。

在 Llama 1 发布时，人们要求 LIama 公开权重。然而，一年以前还没有除 GPT 之外的开源基础模型。这个领域发展着实十分迅速。

深度探索RLHF的Llama2，Llama3论文即将问世

接着，LIama 2 的预训练参数规模与 Llama 1 相近，但增加了更多的训练数据 token，使用了两倍的上下文长度。同时，Llama 2 在后训练阶段增加了指令跟随对齐，使用了 SFT 和 RLHF 技术。下面是对 LIama 2的介绍。LIama 3 的论文也即将问世。

SFT（监督微调）是用来训练模型对齐指令的方法。我们投入了大量人力物力让标注者写下各种有趣的 Prompt。设计这样的任务极具有、挑战性。此外，标注者还需要为 Prompt 编写理想情况下期望模型回答的内容。我们会用这些数据微调模型，并收集大量的指令。

要求标注者编写 Prompt 和答案，远比要求他们比较不同的回答更费时，同时前者比后者成本也高十倍。与 RLHF 类似，人类偏好标注的过程中，标注者只需编写 Prompt，并比较模型生成的两个答案，选择出其中更好的答案。起初，我们认为 SFT 才能实现黄金标准，但考虑到可行性，我们可能更偏向于使用人类偏好标注。

如上图所示，通过在训练中使用规模越来越大的奖励模型，并使用越来越多的数据，不断提高奖励模型的准确性。

奖励模型的输入是 Prompt 及其答案，输出一个标量分数，然后预测出分数更高的答案，这是一个分类任务。我们可以利用奖励模型改进答案，并使用强化学习训练模型。我们引入了拒绝采样技术，从若干样本中采样 Prompt 的回答。

如上图所示，奖励的中位数（橙色折线）是稳定的。对于最大奖励而言，通过使用训练好的奖励模型对回答的样本进行评分。可以看出，加入新样本的情况下，有更大几率抽到比之前更高的奖励。

图中的橙色区域代表通过强化学习循环利用奖励分数改进回答的潜力。我们用奖励模型给回答打分，在当前的样本量级上取得最高奖励后，进一步将下一个量级的奖励从中位数推向最高奖励，从而提高平均奖励分数。

尽管一开始我们模型的错误较多，但模型在持续进步。显然，在使用根据我们自己的数据分布和设置训练的元奖励模型时，我们的模型表现更优，我们的设置与 GPT-4 可能存在差异。即使依据 GPT-4 的标准来评判，最终我们的模型也以超过 50% 的比例优于 GPT-4。

我们在每轮迭代优化中都尝试调整数据的分布。给定一些 Prompt 和对应的回答，我们评估这些回答的得分，并分析它们的奖励分布情况。样本得分的初始分布较为混乱，我们通过迭代优化减少低分样本的数量，并促使它们的得分向分布的右侧偏移。

此外，我们意外地发现模型具备时序感知能力。通过设定模型学习的终止时间，我们可以使模型按时序动态调整答案内容。

如果告诉模型「训练知识截止到 1940 年」。模型就不会给出涉及 1940 年之后知识的答案。例如，它不知道谁赢得了二次世界大战。此外，训练知识截止到 2023 年的模型会根据 GPS 卫星的情况认为地球是圆的，而训练知识截止到 852 年的模型则不知道地球是圆的还是扁平的。

那么，RLHF 背后有多强大魔力？

一开始，我认为我们无法让模型接受写作训练，人类的写作水平会明显高于机器，SFT 会更好。

但现在，让我们思考这样一个问题：写一首关于大语言模型的短诗。

对于人类来说，要给出一个有创意答案非常难。而模型瞬间就能生成以下内容：

In silicon halls（硅基圣殿之中）

Linguistic Leviathans dwell,（沉睡着语言的巨兽）

Wisdom's spawn they are.（他们是智慧的产物）

这首诗甚至超越了大多数人的创作水平。

早在项目初期，我们就发现只需极少量的监督微调，我们的模型就已经超越了普通标注者的平均水平。RLHF 真正的魔力在于，模型的能力已经达到了超人类的水平。如今，人类的标注已经不再是黄金标准。

与模型相比，人类更强的能力在于判别答案好坏的能力，而不是自己创作出好的答案，这正是 RLHF 的魔力源泉。

从 RLHF 我们可以引申出 RLxF 的概念。RLHF 强大背后的秘密并非是强化学习或人类反馈。要想创造出超越人类水平的标注，需要结合人类和 AI 的能力。

未来，LLM研究将走向何方？

如今，GPT-4o 向我们指出：「多模态输入输出」是未来的趋势。通过预训练和后训练的结合，我们的语言建模技术性能已经较高。接下来，我们要整合更多样化的信息（图片、声音、视频等），使模型能自如处理它们。

智能体也是当下火热的研究话题。得益于语言建模任务的成果，以及多模态输入输出技术，我们可以构建一个包含规划、记忆模块及围绕这些核心模块的协调机制的系统作为智能体。

过去，语言模型仅能实现文本交流的功能。有了智能体，它可以完成数学、执行代码、观测环境反馈等任务。一旦代码出错，模型能够识别并作出响应。当模型缺乏信息时，它能在互联网上检索信息并自我修正。

机器人的相关研究也正在崛起，这是未来的趋势。Hugging Face 刚发布了针对此领域的开源库，研究成本正逐年呈指数级降低。我们会将智能体实体化，使其融入物理世界，提供更为坚实的实践基础。使用十倍、百倍增强的算力训练的模型，将会取得更高水平的成果，这是一个明确的趋势。

最近十年人工智能发展突飞猛进，从 ImageNet 竞赛促使视觉模型的发展，到 AlphaGo 攻克围棋难关，如今的模型已具备接近乃至超越人类的理解力。这些模型在数学难题和逻辑推理上接连取得突破，尽管还未达到世界上最佳数学专家的水平，但远超大多数普通人。

一路走来，AI 领域取得了许多突破。AI 是一个很年轻的新兴研究领域。我们期待看到意想不到的突破。

或许，AGI 正是我们这代人的「哥白尼革命」。就像当初人类发现地球其实没什么特别的，只是一个位于普通的星系之中，围绕普通恒星旋转的普通行星。AI 也没有什么疯狂的，就是一堆矩阵运算罢了。

Q&A

Q：Llama 未来五到十年内会怎样发展？

Thomas：这是个好问题。我或许可以预测一年左右的发展，预测未来十年就太难了。Meta 对 Llama 的愿景是朝着 AGI 发展。

目前，我们基于 Llama 推出了一些项目。例如，Meta Live。你可以把它视为免费的 ChatGPT，它目前已在美国推出，很快将扩展到其他国家。

此外，我们已经开始将其应用到内置摄像头、声音传感器的雷朋眼镜这样的产品上，未来有可能取代部分手机。人们可以通过它们与个人数码助手实时交流，数码助手拥有强大的智能体能力和计算能力。

企业不要站在技术的对立面，要创建能从下一代模型中受益的业务。

Q：嵌入式智能设备的算力有限。Llama 对于将大语言模型应用于智能设备有何计划？

Thomas：Meta 已经与雷朋建立了合作关系，并且已经发布了搭载 Llama 功能的最新款雷朋眼镜。虽然 Scaling Law 是有效的，但要实现实时地与智能体的交互仍然有待进一步的研发。

Q：从 Llama 2 开始，你们采用了“拒绝采样”方法，为何要这样做？

Thomas：重要的是，我们要迭代式地改进标注数据的模型。每一轮我们都会收集数据，关键在于使用更好的模型。

我们希望在每一轮中充分调整数据分布，获取新数据后，训练新的奖励模型，调整数据分布。这种方法的可扩展性和鲁棒性非常重要。

Q：语言模型未来能否进化到能够泛化推理，接近人类的思维方式？

Thomas：这是业界尚未攻克的难题。两三年前，在 GPT-2 的时代，我们关注的焦点还只是如何让模型连贯地组合词语。随着模型规模的不断扩大，之前的难题已被攻破，模型的推理能力提升到了新的高度。研究者们会通过持续扩大模型的规模、优化算法，采取创新的训练策略，使用高质量的数据等方法，逐步提升模型的推理能力。

Q：Llama 3 还有哪些可以进一步提升的地方？Llama 4 的计划是怎样的？

Thomas：目前还没有关于 Llama 4 的具体计划。Llama 4 应该是一个飞跃，这体现在模型的能力、涉及的模态、后训练处理等方面。但我现在还不确定 Llama 4 将会如何，但我能保证的是，我们会努力逐步将它提升到新的水平。