我要投稿

大模型推理加速-投机解码

发布日期：2024-05-28 13:40:56 浏览次数： 2521

大语言模型虽然效果很好，但是推理时，朴素的自回归解码策略需要逐个串行解码，耗时较长，这给用户的耐心带来了很大挑战。如今各家大模型提供商基本都有对外提供大模型的体验平台，而模型的推理效率自然也成了一个重要的竞争点。

speculative decoding，译作投机解码，就是推理加速的一个比较巧妙的方案。本篇将介绍投机解码的基础思路。

1.背景

2022年11月，Google在《Fast Inference from Transformers via Speculative Decoding》里提出投机解码的策略；DeepMind稍晚一点，在2023年初的《Accelerating Large Language Model Decoding with Speculative Sampling》也提出了一样的解码策略。（以这两家的关系，很可能私底下就沟通过这个idea了）Google的论文相比DeepMind的，做了更多的实验和分析，更为详尽一些。

在speculative decoding之前，研究人员已经在模型推理加速这个方向做了不少工作：

模型蒸馏：以Hinton的《Distilling the Knowledge in a Neural Network》为代表，以及后面衍生出的各种蒸馏方法（参考《Knowledge Distillation: A Survey》），可以把规模更大的、性能更强的模型的能力，部分迁移到规模较小的模型上，在效果上相比直接训练小模型有一定的提升。transformer上蒸馏相关的经典工作有《TinyBERT: Distilling BERT for Natural Language Understanding》和《DistilBERT, a distilled version of BERT: smaller, faster, cheaper and lighter》等。
模型量化：如《Quantized Neural Networks: Training Neural Networks with Low Precision Weights and Activations》、《LLM.int8(): 8-bit Matrix Multiplication for Transformers at Scale》、《Zeroquant: Efficient and affordable post-training quantization for large-scale transformers》等，把模型参数量化到int8、int4以及更低的精度，在减少空间需求的同时，最大化地保持模型的推理效果。
高效模型结构设计：如使用稀疏层的《Sparse is Enough in Scaling Transformers》，减少KV缓存需求的MQA《Fast Transformer Decoding: One Write-Head is All You Need》、GQA《《GQA: Training Generalized Multi-Query Transformer Models from Multi-Head Checkpoints》》以及最近DeepSeek-V2中的MLA等，还有通过进化算法进行高效架构搜索的工作《Primer: Searching for Efficient Transformers for Language Modeling》。

以上这些做法对不同的输入一视同仁，采用一个全局来看有收益的方案来统一处理，达到推理加速的目的。

相对地，也有一些其他的方案，认为不是每一步推理都适合一样处理：某些推理step需要大模型，而另一些step只需要高效的小模型，从而根据输入，动态地决定模型参与计算的参数，相关工作有：

《Dynamic Neural Networks: A Survey》
《Adaptive Attention Span in Transformers》
《Consistent Accelerated Inference via Confident Adaptive Transformers》
《Why should we add early exits to neural networks?》
《Controlling Computation versus Quality for Neural Sequence Models》
《The Right Tool for the Job: Matching Model and Instance Complexities》
《Depth-Adaptive Transformer》
等

MoE也属于动态激活的方案之一。

而《Training compute-optimal large language models》的scaling law则指出模型规模没有原先预想的影响那么大，可以通过增加训练数据等方法让小模型逼近大模型的效果。

以上这些方案虽然可以在一定程度上提升推理效率，但是要么需要重新训练模型，要么对模型的效果有损害。

也有一些方案在解码的方法上进行优化，比如《Blockwise Parallel Decoding for Deep Autoregressive Models》和《Lossless Acceleration for Seq2seq Generation with Aggressive Decoding》。

speculative decoding也是一个在解码策略上进行优化的方法。投机解码可以在不用训练原模型的基础上，提升2x-3x的推理速度，并且保证结果和原模型完全一致，没有任何效果损失。

2.speculative decoding算法

回想一下，自回归语言模型在训练的时候，在每一个位置，会根据当前及前面所有的token，预测下一个token。由于强制学习的特性，所有token可以一起训练。在某种特别的情况下，模型对当前的输入拟合得特别好，就有可能出现每个token的预测，都完美命中下一个输入token的情况。举个例子：

位置：一  二  三  四
输入：我  爱  中  国
输出：爱  中  国  EOS

而在推理的时候，这种依赖前面所有token的特性，使得自回归模型只能一个一个串行地解码：

step1：输入“我”，输出“爱”；
step2：输入“我爱”，输出“中”；
step3：输入“我爱中”，输出“国”；
step4：输入“我爱中国”，输出“EOS”；

现在，假设我们有一个神奇海螺，你只要输入“我”，就会输出“爱中国 EOS”四个token作为草稿，我们就可以拿着这四个draft token一起放到原来的模型，跑一下各个位置的输出，进行验证，跟训练时的前向推理一样：

位置：一  二  三  四
输入：我  爱  中  国
输出：爱  中  国  EOS

然后就会发现模型的输出和神奇海螺给出的草稿完全一致，那就相当于我们只进行了一次模型推理，就解码了四个token，并且和原模型的效果完全一致。并且一般情况下，模型对一个位置进行预测和对四个位置进行预测的耗时基本没有太大的差异，也就是说在这个例子下，模型解码速度提升到了将近4倍。

当然，神奇海螺不会总是能够给出和模型一模一样的结果，除非它就是模型本身。因此，在上面这个例子中，输入“我”之后，神奇海螺有可能给出的是“爱中华 EOS”这四个draft token。这种情况下，我们把这些token一起输入到模型进行验证

位置：一  二  三  四
输入：我  爱  中  华
输出：爱  中  国  EOS

会发现神奇海螺给出的“爱”和“中”命中了模型的结果，但是“华”没对上。不过这种情况下，跑一次模型推理也能解码出两个token，推理效率依然有提升。

部分情况下，神奇海螺给出的结果也可能完全跑偏，比如给它输入“我”，它有可能输出“叫小明”，这就和原模型一个都没对上。但是只要统计上，神奇海螺给出的草稿平均命中token数 > 0，我们就有机会获得推理加速。

使用神奇海螺的这个思路其实就是speculative decoding的主要思路，而你肯定也已经猜到了，神奇海螺其实就是一个规模比较小的模型，论文中把它称为approximation model或者draft model，而我们想要加速的原模型则叫target model。

论文给出的一个例子如下

绿色的就是approximation model给出并命中target model验证结果的token，红色的是错误的token，蓝色则是修正后的token。

在这个例子中，target模型只推理了9次，就解码出了38个token，推理速度获得了较大提升。

Google论文给出的投机解码算法描述如下图。

（DeepMind版本的算法描述在下面）

这里注意，投机解码单次运行能解码的token数量，除了这 n 个被接受的draft token，还有 M_p对这些草稿进行验证时顺便推理出来的一个额外token，因此最终可以得到个token。因此如果approximation model每次给出 γ 个draft token，理论上最多可以获得新解码token，而最少也能有1个（来自target模型）。

投机解码的原理大致就是这样，思路还是很巧妙的，但是要实际应用还有几个问题需要解决，比如：

关于投机采样speculative sampling：target model怎么对approximation model给出的token进行验证？在一个draft token被拒绝之后，怎么重新采样？
怎么选择才合理？
怎么选择approximation model，用什么指标表征approximation model的质量？

另外，DeepMind论文的给出投机解码算法如下，可以对照Google的算法，方便理解。（DeepMind所用的符号有所不同，本篇采用Google论文的符号描述。）

里面的操作表示。

3.speculative sampling的正确性

我们希望投机解码的最终结果，和target model自回归解码的结果一致，即完全无损，因此需要对投机采样做一些设计和分析。

首先，当前在transformer的解码上已经有很多策略，包括但不限于argmax、top-k采样、使用温度等。而大部分操作都是在logits上进行操作，这相当于改变了模型的输出分布。而在最终分布上的采样操作，都是相同的。因此我们可以只在朴素的标准采样上进行分析，而结果可以推广到其他的解码策略上。

假设是target model在当前输入下的分布，是approximation model 在当前输入下的分布。

投机解码的做法是，先采样，如果，就保留 x ，否则就以的概率拒绝 x ，并在分布对被拒绝的 x 重新采样，并结束当前的投机解码。

其中。

看起来并不复杂。一个问题是，为什么这样从采样之后，我们得到的结果符合分布？即按这样的概率进行拒绝之后，结果和target model自己解码一样？

从公式上来说，approximation model的抽样有。假设 X 是最终结果，我们的目标就是证明。

对于第一项，有

而第二项里

上式第三行到第四行的解释：第三行相当于计算1减区域b的面积，而区域a+区域b的面积和为1，因此第三行相当于区域a的面积，即。

从采样规则，有

因此

最终有

因此按照前面设计的规则进行采样，就能保证结果和target model自己解码出来的一样。

4.approximation model的评估

approximation model的一个采样被target model接受的概率为 β，我们把这个概率叫acceptance rate接受率。

那么其期望值就是approximation model对target model拟合质量一个很好的评估指标。

越大，每个token被接受的概率越大，那么每次投机解码能获得的输出token越多。

我们令，并且为简化起见，假设 β 的分布是i.i.d.的，那么跑一次投机解码能够获得的token数量是一个capped geometric variable，其期望值如下式

不同 γ 下的图像如下

而

因此有

越小，则 M_p 和 M_q 越相近。如果，说明；如果，说明 p 和 q 两个分布完全没有交叉的部分。

根据 β 的定义，有

最终得到

实验中，不同approximation model和target model之间测得的 α 值如下表所示

5.耗时优化的分析

6.计算成本的分析

target model同时对个token进行验证。如果一个token被接受了，那么推理效率就获得了提升；如果token被拒绝了，那么相关的计算就没有实际收益，就会有计算的“浪费”。

7. 的选择

给定 α 和 c，最佳的 γ 应该最大化walltime improvement factor

下图给出不同 α 和 c下，最佳的 γ 值

推理速度和总计算量之间有tradeoff，即增大 γ 会提升推理速度，同时也会带来更多的计算成本，如下所示

实际上，β 并不是固定的常数，因此实际上我们可以通过在投机解码的过程中预测 β 值来选择 γ，这是未来的一个改进方向。

8.approximation model的选择

论文的实验中，一部分使用现成的模型作为approximation model。这种情况下，让approximation model的参数规模比target model小两个数量级是比较好的选择，能够平衡推理加速和计算量。

有趣的是，即使使用很简单的模型，比如n-gram模型作为approximation model，也能获得不错的 α 值。

另外，在一些特殊的任务，比如摘要任务，由于生成结果往往会从输入的原文里摘取内容，因此使用一个会从输入里copy token的approximation model可能会得到较高的 α 值。

approximation model的另一个选择是如《Blockwise parallel decoding for deep autoregressive models》使用的非自回归模型。

9.实验

论文在翻译任务和摘要任务上测试了投机解码的效果。使用了T5的较小规模模型作为approximation model，来加速T5-XXL的推理，效果如下表，最高能达到3倍+的推理加速。

此外，论文对更多样的模型组合测试了 α 值，如下表所示

可以观察到，比target model小几个数量级的approximation model倾向于产生介于0.5和0.9之间的 α 值。还注意到，对于所有模型，用于采样的分布越尖（即T比较小，如argmax）， α 值越高。

10.小结

投机解码可以在完全无损的情况下，把推理速度提升2~3倍
即使使用最简单的n-gram模型，也能在投机解码的策略下获得推理速度提升
正常来说，使用比target model小两个数量级的approximation model就有较好的效果

53AI，企业落地应用大模型首选服务商

产品：大模型应用平台+智能体定制开发+落地咨询服务

承诺：先做场景POC验证，看到效果再签署服务协议。零风险落地应用大模型，已交付160+中大型企业

160+中大型企业正在使用53AI

立即咨询预约演示

百度智能云邀53AI：共创AI新纪元，启航智能新时代

2024-05-27

钉钉恒星计划：53AI与百余位企业家及钉钉生态伙伴，共议“AI 浪潮下的新机遇”

2024-05-22

热点资讯

最强 GPT 免费使用！GPT4O 开启多模态新时代！

2024-05-14

全民AI时代：手把手教你用Ollama & AnythingLLM搭建AI知识库，无需编程，跟着做就行！

2024-04-26

【开源看AI】4.9K star！Khoj：完美融合本地文档和在线网页的AI第二大脑

2024-05-22

OLLama详细的 api 介绍不完全指南 python 直接调用 OLLama api 翻译助手演示

2024-04-12

GraphRAG+Ollama 本地部署，保姆教程，踩坑无数，闭坑大法

2024-07-18

万字长文解析：大模型需要怎样的硬件算力

2024-03-30

微调神器LLaMA-Factory官方保姆级教程来了，从环境搭建到模型训练评估全覆盖

2024-05-10

开源项目Composio：突破 AI 智能体开发的边界

2024-08-13

更改ollama模型存储路径

2024-04-25

全面对比dify、coze、streamlit、chainlit

2024-04-26

大家都在问

【AI赋能】揭秘大模型微调：如何让机器智能跃升一个台阶？

2024-09-19

从案例分析到客户沟通：AI提示词如何优化律师工作流程？

2024-09-19

o1 能带我们走进 AGI 吗？

2024-09-19

如何微调（Fine-tuning）大语言模型？

2024-09-18

AI软件必须用GPU么？

2024-09-18

ChatGPT有三个快捷指令和三个模式，你知道吗？

2024-09-17

为什么4090比A100更有性价比？

2024-09-17

o1新模型数据乐观，现实却打脸？

2024-09-16

开箱即用的企业大模型应用平台

工作+AI

业务+AI

AIx业务

大模型咨询

大模型定制

1.背景

2.speculative decoding算法

3.speculative sampling的正确性

4.approximation model的评估

5.耗时优化的分析

6.计算成本的分析

7. 的选择

8.approximation model的选择

9.实验

10.小结

相关资讯

160+中大型企业正在使用53AI

百度智能云邀53AI：共创AI新纪元，启航智能新时代

钉钉恒星计划：53AI与百余位企业家及钉钉生态伙伴，共议“AI 浪潮下的新机遇”

热点资讯

最强 GPT 免费使用！GPT4O 开启多模态新时代！

全民AI时代：手把手教你用Ollama & AnythingLLM搭建AI知识库，无需编程，跟着做就行！

【开源看AI】4.9K star！Khoj：完美融合本地文档和在线网页的AI第二大脑

OLLama详细的 api 介绍 不完全指南 python 直接调用 OLLama api 翻译助手演示

GraphRAG+Ollama 本地部署，保姆教程，踩坑无数，闭坑大法

万字长文解析：大模型需要怎样的硬件算力

微调神器LLaMA-Factory官方保姆级教程来了，从环境搭建到模型训练评估全覆盖

开源项目Composio：突破 AI 智能体开发的边界

更改ollama模型存储路径

全面对比dify、coze、streamlit、chainlit

大家都在问

【AI赋能】揭秘大模型微调：如何让机器智能跃升一个台阶？

从案例分析到客户沟通：AI提示词如何优化律师工作流程？

o1 能带我们走进 AGI 吗？

如何微调（Fine-tuning）大语言模型？

AI软件必须用GPU么？

ChatGPT有三个快捷指令和三个模式，你知道吗？

为什么4090比A100更有性价比？

o1新模型数据乐观，现实却打脸？

热门标签

OLLama详细的 api 介绍不完全指南 python 直接调用 OLLama api 翻译助手演示