我要投稿

从序列到并行：一致性大语言模型（CLLM）推动文字处理速度飞跃

发布日期：2024-05-28 06:17:55 浏览次数： 2033 作者：行客科技

【行客按】在最近举行的国际学习表征会议（ICLR）上，来自加州大学圣地亚哥分校和上海交通大学的研究团队发表了一项创新的研究成果，这项研究涉及到了一种名为“一致性大语言模型”（Consistency Large Language Models, CLLMs）的技术。该技术利用Jacobi解码算法，并通过“一致性损失函数”显著提升了文字生成速度，达到了2.4至3.4倍的性能提升。

CLLMs通过修改传统的自回归（AR）解码过程，引入了并行计算能力，这使得在生成文本时可以同时处理多个token，从而大幅提升推理效率。这一技术特别适用于需要处理大量数据和复杂模型的场景，如GPT和LLaMA系列大模型。CLLM的核心在于其能够有效映射任意Jacobi轨迹上的点至一个固定点，这一过程与神经网络中用于图像生成的一致性模型（Consistency Models）有着类似的理论基础。CLLM 在多个领域的应用中实现了2至3倍的速度提升，同时未增加推理过程的额外成本。特别是在 GSM8K 和 Spider 任务上，相较于今年1月新推出的 Medusa 2，CLLM 展现出了显著的性能优势。

两位主要的研究者都是博士一年级学生，分别是上海交通大学的寇思麒和加州大学圣地亚哥分校的胡岚翔。他们的研究在邓志杰教授和张昊教授的指导下进行，后者不仅是他们的导师，也是众多知名项目如 Vicuna、vLLM 和 Chatbot Arena 的创始人。

Jacobi解码方法的技术细节

Jacobi解码是从求解非线性方程的Jacobi和Gauss-Seidel迭代方法衍生而来。在这种框架下，解码过程不再是序列的，而是可以并行处理。具体来说，Jacobi解码首先从输入提示（prompt）随机生成一个n-token序列作为起始点。这些token不必一开始就正确，但通过迭代更新，这一序列会逐步接近自回归（AR）解码的输出，即“固定点”。

每次迭代中，模型评估当前n-token序列，并更新序列以更好地预测下一个token，直到序列稳定。这个过程形成了所谓的“Jacobi轨迹”，从一个随机初始化的序列到与AR解码下相同的n-token序列。

CLLM的训练策略

CLLM的训练涉及到两个主要的损失函数：一致性损失（Consistency Loss）和自回归损失（AR Loss）。一致性损失确保模型能够从Jacobi轨迹上的任何中间状态预测出固定点，这类似于扩散模型中用于加速图像生成的技术。自回归损失则确保CLLM不会偏离原始大语言模型的输出分布，从而保证输出的质量。

这种训练策略允许CLLM在单步内生成多个连续token，从而减少必须执行的总迭代次数，并显著提升处理速度。此外，通过精确控制损失函数的平衡，CLLM能够在保持输出一致性的同时，有效地学习和模拟大语言模型的行为。

图 2：在 Spider 数据集上，目标大语言模型与CLLMs之间的Jacobi轨迹比较。Jacobi轨迹上的每个点是一序列彩色编码：蓝色代表与自回归（AR）结果匹配的正确token，红色代表不准确的token。CLLM显示出增强的效率，其收敛到固定点的速度是目标大语言模型的两倍。这种提升的效率可以归因于一致性损失，该损失有助于在给定前缀的情况下学习每个n-token序列的结构。

在实验中，CLLM在多个具体领域的基准测试中显示出2.4到3.4倍的速度提升，几乎不损失准确性。这包括文本到SQL的转换（如Spider数据集），代码生成（如CodeSearchNet Python），以及更一般的问答任务（如ShareGPT和GSM8K数据集）。这种显著的性能提升证明了CLLM不仅适用于特定任务，也能够处理开放领域的交互。