我要投稿

大模型正在“内丹修炼”中...

发布日期：2024-04-17 08:19:21 浏览次数： 2772

作者：老油杂谈

微信搜一搜，关注“老油杂谈”

今年以来，高级大模型市场正在变得愈发“拥挤”。Claude 3 Opus、Gemini Pro 1.5 和GPT-4 Turbo 在各类Leaderboard上轮番登顶，不断上演“城头变幻大王旗”的戏码；而Meta将在未来数周内发布Llama 3，OpenAI则计划在“不久的将来”发布GPT-5。

在multimodal风头无两的同时，高级大模型的比拼正在重回其初始目标：解决更复杂的问题。例如，GPT-4 Turbo的最新版本强调了其在Math、Logical Reasoning和Coding方面的提升，而OpenAI和Meta AI的高管也表示System-2级别的Reasoning能力是下一代大模型的核心竞争力。

细数下来，语言大模型的Reasoning能力提升主要有三条路径（图1）：

一是借助CoT、ToT、Plan-Reflection等技巧的“外家功夫”；
二是利用推演过程（例如，数学题的演算步骤）和强化学习进行预训练的“内功心法”；
以及直接改造Transformer架构的“内丹修炼”。

图1: 外家功夫 vs 内功心法 vs 内丹修炼

绝大多数大模型厂商已经将第一条路径让给了生态体系，而第二条路径当下又缺乏泛化性。所以，有着Mixture-of-Experts（MoE）成功经验的“内丹修炼”是硅谷当下的“显学”。

我们今天便分享一些有趣的“炼丹”思路和论文。

“炼丹”思路

Transformer在System-2的实现之路上有着诸多障碍，Andrej Karpathy曾诟病大模型缺乏“Slower Thinking”的能力，而Yann LeCun则认为LLMs不能“Think Before Talk” 。如果站在宏观视角，我们会发现这些障碍的主因之一就是：Transformer过于“平等”地对待每一个Token。

在经典Transformer中，每一个Token的生成都会经历相同规模的Blocks/Layers、并耗费相同的时间（MoE会选择不同Expert，但计算规模和时间耗费没有变化）。大模型平等地对待简单的和复杂的问题，并不会因复杂度而多进行一次点积。

而当下“炼丹”的主要思路之一就是打破这种“平等”，包含两个主要方向（图2）：

图2: 炼丹的主要思路，Graph inspired by YT "All About AI"

其一，分而治之（Divide & Conquer），建立Token的“分类”机制，能够依据Prompt的复杂度来匹配合适的计算资源；
其二，思而后言（Think before Talk），建立Transformer的“思考”机制，Token的生成并非完全取决于概率，而是在多个方案中择优。

分而治之

Google DeepMind最近所提出的Mixture-of-Depths（MoD）便是“分而治之”的探索实践。MoD的主要思路是：

通过前置Router，以实现对每个Token的动态计算资源分配、降低总体FLOP规模并保证生成的准确性。

MoD的每个Layer均由两条线路构成（图3）：左边是速通路线，Token不参与任何计算，而右边是经典路线，Token参与包括Self-Attention和MLP的所有计算。MoD主要工作方式如下：

图3 MoD的机制[1]

首先，由用户指定计算“预算”（Capacity），即Context Window中参与计算Token的比例，例如50%或25%；
其次，Router会为每一个Token计算一个标量权重（Weight），代表Router对该Token是否应参与计算的倾向性；
最后，基于预算和所有Token的权重，由Router选出top-k参与计算的Tokens，而其余的Tokens将经由速通路线抵达下一层Layer。

该Router由Neural Network实现，并通过参与Gradient Descent Optimization与MoD共同训练而成。

MoD的测评结果相当不错：因为有相当数量的Token不参与计算，MoD能够减少50%的FLOPs、提升60%+的Forward Pass速度、并同时保证生成质量。

显然，在MoD中，每个Token不再“平等”。虽然Router还未能实现依据问题的复杂度来匹配资源，但MoD在Token级别的实践也验证了“分而治之”的可行性。

思而后言

人们抱怨大模型的“胡说八道”。但事实上，Transformer并非不知道正确答案，而只是做出了错误的选择。

DeepMind的另一篇论文《Chain-of-Thought Reasoning Without Prompting》便印证了上述观点。该论文发现，当Transformer生成答案的第一个Token时，正确答案有可能不在Logits中的最优候选（top-1）所代表的路径上，而是出现在其他次优候选（top-k）的路径中，例如在下图中，top-2/4，而非top-1，代表正确答案（图4），而且次优候选路径所提供的答案质量堪比CoT：

图4: 正确答案往往会出现在次优候选路径[2]

但经典Transformer并不具备探索多个次优候选路径、并评估其正确性的能力，而只是随机从top-k中抽取一个概率较高的候选展开回答。该机制导致了大模型，即使在知道正确答案的情况下，也不能正确作答。

上述发现让硅谷的科学家们开始试图给Transformer“插上思考的翅膀”。而Stanford最近发布的论文《Quiet-STaR》就代表了“插上翅膀”的实践，该论文的思路是：

Transformer结合最优候选路径和n条次优候选路径中的优质回答以生成下一个Token

Quiet-STaR的训练过程包含三步：

图5: Quiet-STaR的训练机制[3]

首先，Think。Transfomer在选择最优候选路径的同时，将基于次优候选路径产生n条“Thoughts”，正如DeepMind的论文中所述，这些Thoughts大概率包含优质的回答；
其次，Talk。Thoughts + 最优候选路径（Mix Logits）生成新的Token。基于Thoughts大概率包含优质的回答的假设，这种类似于“穷举”的结合将极大提升生成正确Token的可能性；
最后，Learning。基于生成的结果，使用强化学习评估每一条次优候选路径、选出最好的次优、并更新模型参数。

需要注意的是，Talk过程中的Mix Logits决定了最优和次优候选路径在预测过程中分别所占比例，当最优候选路径可以达到相当的准确度时，次优候选路径不会参与生成以降低计算成本。此外，在Inference过程中，Quiet-STaR只推演最好的次优候选路径以提升效率。

即使没有进行Fine-tuning，Quiet-STaR 也能在 CommonsenseQA（36.3%→47.2%）和 GSM8K（5.9%→10.9%）等任务上提升Zero-shot的推理能力，并且这些提升随着“Think”所使用的Thoughts包含Token数量的增加而增强（图6）。

图6: Quiet-STaR的测评结果[3]

Quiet-STaR的实现与采用MCTS的Alpha Go有异曲同工之妙，强化学习的引入让Transfomer可以先思考（Think），并继而在多个方案中择优以生成下一个Token（Talk）。而Mix Logits的设定也让每个Token不再“平等”，其计算规模也将伴随着大模型对Token语义理解的不同而不同。