我要投稿

Mixtral 8x7B 是一种离散的MoE(混合专家模型)

发布日期：2024-06-07 12:25:51 浏览次数： 2421 作者：AI每日资讯

Mixtral 8x7B 是 Mistral AI 新推出的稀疏专家混合 LLM，最近掀起了不小的波澜，诸如 "Mistral AI 推出 Mixtral 8x7B：改变机器学习的稀疏专家混合物 (SMoE) 语言模型 "或 "Mistral AI 的 Mixtral 8x7B 超越 GPT-3.5，撼动人工智能世界 "等引人注目的标题。

Mistral AI 是一家法国人工智能初创公司，由 Meta 和谷歌的前工程师于 2023 年创立。该公司于 2023 年 12 月 8 日在其 Twitter 账户上发布了 Mixtral 8x7B，这可能是 LLM 历史上最不正式的一次发布，只是简单地在其 Twitter 账户上发布了 Torrent magnet 链接、

Mixtral 8x7B 是一种离散的MoE(混合专家模型)

混合专家模型（MoE）可追溯到 90 年代初的研究（Jacobs 等人，1991 年）。其原理是利用专家 E 的加权和对预测 y 进行建模，其中权重由门控网络 G 决定。可以说是分而治之。例如，在最初的研究中，作者展示了在元音辨别问题中，不同的专家如何学会专攻不同的决策边界。

然而，真正让 MoE 飞起来的是top-k routing，这是 2017 年论文 "巨大的神经网络"（Outrageously large neural networks）（Shazeer 等人，2017 年）中首次提出的想法。这个想法的关键在于只计算前 k 个专家的输出，而不是所有专家的输出，这使得我们即使增加了数量惊人的专家，也能保持计算量不变。在论文中，作者使用top-k routing，结合负载平衡损失、定制并行性和gating noise等额外技巧，构建了一个庞大的（当时）6B 参数 LSTM 语言模型，在 Billion Words 语言建模基准上取得了前所未有的性能。

The Switch Transformer 用硬路由 MoE 取代Transformer中的 FFN 层

下一个重要的里程碑是 Switch Transformer（Fedus 等人，2022 年），它通过选择 k=1（即每个输入标记只选择一个最相关的专家），将 top-k routing发挥到了极致，并推翻了长期以来的假设，即门(gate )需要能够比较至少 2 个专家才能学到任何东西。

如今，我们将 k=1 的情况也称为 "硬路由"，与标准 MoE 模型中的软路由形成鲜明对比。作者用 128 个硬路由专家取代了 T5 Transformer 中的 FFN 层，并引入了额外的建模技巧，如容量因子、新的负载平衡损耗、精确铸造、按比例专家初始化、激进的专家退出和定制并行性，从而将预训练速度提高了 7 倍，并在 GLUE 等下游微调任务上实现了前所未有的性能。

专家的混合结构

Mixtral 8x7B 是一个 32 块Transformer 模型，我们在每个Transformer 块中用 8 个专家层替换了 FFN 层，这些专家层使用 k=2 的top-k routing 。专家层本身是采用 SwiGLU 激活的单层 MLP。从形式上看，MoE 层产生的输出 y 由以下公式给出：

其中，n 是专家人数（此处为 n=8），W 是将输入 x 分配给专家的路由矩阵，Top2 是一个函数，除了两个最大的输入外，其他输入都返回负无穷大。

这样就创建了一个总共有 47B 个参数的模型，但由于 top-2 routing，在任何给定时间内只有 13B 个参数处于活动状态，因此大容量模型的训练速度与小容量模型一样快。

基准测试结果

作者在 6 个不同领域的基准问题上对 Mixtral 8x7B 进行了评估：MMLU（大规模多任务语言理解）、知识检索、推理、理解、数学和编码。他们将其与 Mistral-7B、7B 参数密集Transformer 模型以及 Llama-7B、Llama-13B 和 Llama-70B 进行了比较。

主要发现是，尽管 Mixtral 8x7B 的活动参数数量只有最大 Llama 模型的五分之一（13B VS 70B），但其性能与最大 Llama 模型相当或更好，其中数学和编码方面的改进最大：

在多语言基准测试中，Mixtral-8x7B 的表现更为出色，在法语、德语、西班牙语和意大利语测试中，比 70B Llama 2 型号高出几个百分点：

作者解释说，在预训练过程中，他们 "大幅 "提高了多语言数据的采样比例，这也是他们在其他语言上取得优异成绩的原因。

作者还在一个 "指令数据集 "上对 Mixtral 8x7B 进行了微调，根据人类评估，由此产生的模型 "Mixtral-Instruct "优于 GPT-3.5-Turbo、Gemini Pro、Claude-2.1 和 Llama 2 70B Chat。作者总结说，Mixtral-Instruct 是目前最好的开放权重模型。

与Switch Transformer相比如何？

Mixtral 究竟有哪些新功能呢？让我们将它与 Switch Transformer进行比较：

Mixtral 使用 k=2 的top-k routing ，Switch 使用 k=1 的top-k routing 。
Mixtral 仅使用 8 名专家，而Switch使用 128 名专家。
Mixtral 在每个Transformer 模块中都增加了专家，Switch 的专家都增加在除Transformer 外的模块中。
Mixtral 似乎不使用专家并行。Switch使用专家、模型和数据并行的组合。
Mixtral 没有负载平衡损耗或容量因素。在Switch中，这些都是关键组件，而在 Mixtral 中，由于专家似乎没有并行化，因此可能不需要这些组件。
Mixtral 使用 SwiGLU 激活，Switch 使用的标准 ReLU 激活。

尽管如此，Mixtral-8x7B 似乎并没有引入任何前人未曾展示过的新内容。基于Transformer的稀疏 LLM 优于稠密 LLM 的事实从 Switch Transformer开始就已众所周知。与 Llama 或其他密集模型比较，不如与 Switch 进行比较，这样更公平一些。

总结

虽然 Mixtral 8x7B 掀起了很大的波澜，引起了很多热议，但在其表面之下，确实没有什么以前没有出现过的新东西，其中最重要的是 Shazeer 等人 2017 年的研究和 Fedus 等人 2022 年的研究。

与Switch Transformer,相比，Mixtral 使用的专家数量似乎相对较少（8 vs 128），但这也许可以解释为什么 Mixtral 没有专家并行性和负载平衡损失，而这在以前的工作中是至关重要的组成部分。令人惊讶的是，Mixtral 中的专家更专注于语法而非语义，这或许可以解释其在数学和编码问题上的卓越表现。

这篇论文仅有 13 页，细节非常少，尤其是与 40 页的 Switch Transformer 论文相比。我们没有了解到训练数据、以及用于训练和微调的机器类型和并行性，也不知道各种超参数（专家数量、激活函数、k 等）是如何选择的。一篇好的科学论文至少应该证明这些选择的合理性。

Mixtral 在参数较少的情况下击败了密集 LLM，这一事实确实令人惊艳。问题不在于稀疏 LLM 是否能以更少参数击败密集 LLM，而在于如何尽可能高效地构建稀疏 LLM。如果能与其他稀疏 LLM 实现（如 Switch Transformer）进行比较，会更有启发。

Mixtral 与其竞争对手的最大不同之处在于它是完全开源的：你可以下载权重并在自己本地的 GPU 上运行 Mixtral-8x7b。而 Switch Transformer不行。