微信扫码
与创始人交个朋友
我要投稿
今年以来, 高级大模型市场正在变得愈发“拥挤”。Claude 3 Opus、Gemini Pro 1.5 和GPT-4 Turbo 在各类Leaderboard上轮番登顶,不断上演“城头变幻大王旗”的戏码;而Meta将在未来数周内发布Llama 3,OpenAI则计划在“不久的将来”发布GPT-5。
在multimodal风头无两的同时,高级大模型的比拼正在重回其初始目标:解决更复杂的问题。例如,GPT-4 Turbo的最新版本强调了其在Math、Logical Reasoning和Coding方面的提升,而OpenAI和Meta AI的高管也表示System-2级别的Reasoning能力是下一代大模型的核心竞争力。
细数下来,语言大模型的Reasoning能力提升主要有三条路径(图1):
一是借助CoT、ToT、Plan-Reflection等技巧的“外家功夫”;
二是利用推演过程(例如,数学题的演算步骤)和强化学习进行预训练的“内功心法”;
以及直接改造Transformer架构的“内丹修炼”。
图1: 外家功夫 vs 内功心法 vs 内丹修炼
绝大多数大模型厂商已经将第一条路径让给了生态体系,而第二条路径当下又缺乏泛化性。所以,有着Mixture-of-Experts(MoE)成功经验的“内丹修炼”是硅谷当下的“显学”。
我们今天便分享一些有趣的“炼丹”思路和论文。
“炼丹”思路
Transformer在System-2的实现之路上有着诸多障碍,Andrej Karpathy曾诟病大模型缺乏“Slower Thinking”的能力,而Yann LeCun则认为LLMs不能“Think Before Talk” 。如果站在宏观视角,我们会发现这些障碍的主因之一就是:Transformer过于“平等”地对待每一个Token。
在经典Transformer中,每一个Token的生成都会经历相同规模的Blocks/Layers、并耗费相同的时间(MoE会选择不同Expert,但计算规模和时间耗费没有变化)。大模型平等地对待简单的和复杂的问题,并不会因复杂度而多进行一次点积。
而当下“炼丹”的主要思路之一就是打破这种“平等”,包含两个主要方向(图2):
图2: 炼丹的主要思路,Graph inspired by YT "All About AI"
其一,分而治之(Divide & Conquer),建立Token的“分类”机制,能够依据Prompt的复杂度来匹配合适的计算资源;
其二,思而后言(Think before Talk),建立Transformer的“思考”机制,Token的生成并非完全取决于概率,而是在多个方案中择优。
分而治之
Google DeepMind最近所提出的Mixture-of-Depths(MoD)便是“分而治之”的探索实践。MoD的主要思路是:
通过前置Router,以实现对每个Token的动态计算资源分配、降低总体FLOP规模并保证生成的准确性。
MoD的每个Layer均由两条线路构成(图3):左边是速通路线,Token不参与任何计算,而右边是经典路线,Token参与包括Self-Attention和MLP的所有计算。MoD主要工作方式如下:
图3 MoD的机制[1]
首先,由用户指定计算“预算”(Capacity),即Context Window中参与计算Token的比例,例如50%或25%;
其次,Router会为每一个Token计算一个标量权重(Weight),代表Router对该Token是否应参与计算的倾向性;
最后,基于预算和所有Token的权重,由Router选出top-k参与计算的Tokens,而其余的Tokens将经由速通路线抵达下一层Layer。
该Router由Neural Network实现,并通过参与Gradient Descent Optimization与MoD共同训练而成。
MoD的测评结果相当不错:因为有相当数量的Token不参与计算,MoD能够减少50%的FLOPs、提升60%+的Forward Pass速度、并同时保证生成质量。
显然,在MoD中,每个Token不再“平等”。虽然Router还未能实现依据问题的复杂度来匹配资源,但MoD在Token级别的实践也验证了“分而治之”的可行性。
思而后言
人们抱怨大模型的“胡说八道”。但事实上,Transformer并非不知道正确答案,而只是做出了错误的选择。
DeepMind的另一篇论文《Chain-of-Thought Reasoning Without Prompting》便印证了上述观点。该论文发现,当Transformer生成答案的第一个Token时,正确答案有可能不在Logits中的最优候选(top-1)所代表的路径上,而是出现在其他次优候选(top-k)的路径中,例如在下图中,top-2/4,而非top-1,代表正确答案(图4),而且次优候选路径所提供的答案质量堪比CoT:
图4: 正确答案往往会出现在次优候选路径[2]
但经典Transformer并不具备探索多个次优候选路径、并评估其正确性的能力,而只是随机从top-k中抽取一个概率较高的候选展开回答。该机制导致了大模型,即使在知道正确答案的情况下,也不能正确作答。
上述发现让硅谷的科学家们开始试图给Transformer“插上思考的翅膀”。而Stanford最近发布的论文《Quiet-STaR》就代表了“插上翅膀”的实践,该论文的思路是:
Transformer结合最优候选路径和n条次优候选路径中的优质回答以生成下一个Token
Quiet-STaR的训练过程包含三步:
图5: Quiet-STaR的训练机制[3]
首先,Think。Transfomer在选择最优候选路径的同时,将基于次优候选路径产生n条“Thoughts”,正如DeepMind的论文中所述,这些Thoughts大概率包含优质的回答;
其次,Talk。Thoughts + 最优候选路径(Mix Logits)生成新的Token。基于Thoughts大概率包含优质的回答的假设,这种类似于“穷举”的结合将极大提升生成正确Token的可能性;
最后,Learning。基于生成的结果,使用强化学习评估每一条次优候选路径、选出最好的次优、并更新模型参数。
需要注意的是,Talk过程中的Mix Logits决定了最优和次优候选路径在预测过程中分别所占比例,当最优候选路径可以达到相当的准确度时,次优候选路径不会参与生成以降低计算成本。此外,在Inference过程中,Quiet-STaR只推演最好的次优候选路径以提升效率。
即使没有进行Fine-tuning,Quiet-STaR 也能在 CommonsenseQA(36.3%→47.2%)和 GSM8K(5.9%→10.9%)等任务上提升Zero-shot的推理能力,并且这些提升随着“Think”所使用的Thoughts包含Token数量的增加而增强(图6)。
图6: Quiet-STaR的测评结果[3]
Quiet-STaR的实现与采用MCTS的Alpha Go有异曲同工之妙,强化学习的引入让Transfomer可以先思考(Think),并继而在多个方案中择优以生成下一个Token(Talk)。而Mix Logits的设定也让每个Token不再“平等”,其计算规模也将伴随着大模型对Token语义理解的不同而不同。
Google DeepMind和Stanford的论文代表了行业顶尖团队的“炼丹”思路,我建议大家阅读论文原文,也许在不久的将来,我们就可以在商业或者开源大模型中看到基于上述论文的商业落地实践。
53AI,企业落地应用大模型首选服务商
产品:大模型应用平台+智能体定制开发+落地咨询服务
承诺:先做场景POC验证,看到效果再签署服务协议。零风险落地应用大模型,已交付160+中大型企业
2024-08-13
2024-03-30
2024-05-28
2024-05-10
2024-04-26
2024-04-12
2024-04-25
2024-07-25
2024-05-06
2024-05-14