AI知识库

53AI知识库

学习大模型的前沿技术与行业应用场景


Meta推出连续思维链Coconut:突破CoT局限,探索 LLM 在潜在空间中的推理
发布日期:2024-12-21 12:12:21 浏览次数: 1524 来源:青哥谈AI


点击蓝字

关注我们‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍


引言

当前,大语言模型的推理目前局限于“语言空间”,通常通过链式思维(Chain of Thought, CoT)表达推理过程来解决复杂问题。然而语言空间并非总是推理的最佳选择。近日,来自Meta、加州大学圣地亚哥分校的研究团队另辟蹊径,为探索LLM在不受限制潜在空间中的推理潜力,提出了一种全新范式——Coconut(连续思维链,Chain of Continuous Thought)。在其论文《Training Large Language Models to Reason in a Continuous Latent Space》中,Coconut 不再依赖语言模型头和嵌入层来映射隐藏状态与语言token,而是创新性地直接将最后的隐藏状态(即连续思维)作为下一个token的输入嵌入。这一举措成功地增强了LLM的推理能力,在与传统的CoT对比中,展现出更强的性能和更高的效率,引发了广泛关注。

关注本公众号,后台回复【1221】获取论文原文





论文看点‍‍


  1. Coconut:LLMs的最后一个隐藏状态作为推理状态的表示(称为“连续思维”),并将其直接作为下一个输入嵌入,允许LLMs在不受自然语言限制的情况下进行推理。

  2. 潜在空间的优势:Coconut在某些需要大量回溯的逻辑推理任务中优于CoT并且在推理过程中生成的token更少,表明潜在空间推理在需要广泛规划的复杂任务中具有明显优势。

  3. 多阶段训练策略:通过逐步替换语言推理步骤为连续思维来增强潜在推理的训练,有效地利用了语言推理链来指导训练过程,从而提高了模型的推理能力。

  4. 推理模式的改进:Coconut能够编码多个潜在的下一个步骤,允许模型进行类似于BFS的推理过程,而不是像CoT那样过早地承诺单一的确定性路径。

  5. Coconut的有效性:在数学推理(GSM8k)和逻辑推理(ProntoQA和ProsQA)任务中,Coconut展示了更高的推理准确性和更少的推理token。




内容概览‍‍



摘要

大型语言模型 (LLM) 受限于在“语言空间”中进行推理,其中它们通常使用思维链 (CoT) 来表达推理过程以解决复杂的推理问题。 然而,我们认为语言空间并不总是推理的最佳选择。 例如,大多数词符元主要用于文本连贯性,而并非推理所必需,而一些关键符元需要复杂的规划,并对LLM 构成巨大的挑战。 为探索LLM在不受限制的潜在空间中进行推理的潜力,而不是使用自然语言,我们引入了一种新的范式Coconut(Chain of Continuous Thought)。 我们利用LLM的最后一个隐藏状态作为推理状态的表示(称为“连续思维”)。我们不是将其解码为词符元,而是将其直接作为后续输入嵌入在连续空间中馈送到LLM。实验表明,Coconut可以有效地增强LLM在多个推理任务上的表现。 这种新颖的潜在推理范式促使高级推理模式的出现:连续思维可以编码多个可选的下一个推理步骤,允许模型执行广度优先搜索 (BFS) 来解决问题,而不是像CoT那样过早地致力于单一的确定性路径。 在需要在规划过程中进行大量回溯的某些逻辑推理任务中,Coconut优于CoT,且推理过程中使用的思维符元更少。 这些发现证明了潜在推理的前景,并为未来的研究提供了宝贵的见解。


1 引言

大型语言模型 (LLM) 在人类语言的大量预训练中展现出非凡的推理能力。 虽然下一个符元预测是一个有效的训练目标,但它对作为推理机的LLM施加了一个根本性的约束:LLM的显式推理过程必须以词符的形式生成。 例如,一种流行的方法,称为思维链 (CoT) 推理,涉及提示或训练LLM使用自然语言逐步生成解决方案。 然而,这与某些人类认知结果形成鲜明对比。神经影像学研究始终表明,语言网络——一组负责语言理解和产生的脑区——在各种推理任务中基本保持不活跃。 进一步的证据表明,人类语言被优化用于交流而不是推理

当LLM使用语言进行推理时,会出现一个重要问题:每个特定推理符元所需的推理量差异很大,但当前的LLM架构几乎为预测每个符元分配相同的计算预算。 推理链中的大多数符元仅仅是为了流畅性而生成的,对实际的推理过程贡献甚微。 相反,一些关键符元需要复杂的规划,并对LLM构成巨大的挑战。 虽然以前的工作试图通过提示LLM生成简洁的推理链,或在生成一些关键符元之前进行额外的推理来解决这些问题,但这些解决方案仍然局限于语言空间,并没有解决根本问题。 相反,理想情况下,LLM应该能够自由地进行推理,而无需任何语言约束,然后仅在必要时将其发现翻译成语言。

图1 连续思维链(Coconut)与思维链(CoT)的比较。在CoT中,模型将推理过程生成为一个词token序列(例如,[Xi,Xi+1,..,Xit;]如图所示)。Coconut将最后一个隐藏状态视为推理状态的表示(称为“连续思维”),并直接将其用作下一个输入嵌入。这允许LLM在不受限制的潜在空间而不是语言空间中进行推理

在这项工作中,我们通过引入一种新的范式Coconut(连续思维链)来探索LLM在潜在空间中的推理。 这涉及到对传统思维链 (CoT) 过程的一个简单修改:与其使用语言模型头和嵌入层在隐藏状态和语言符元之间进行映射,Coconut 直接将最后一个隐藏状态(一个连续的思想)作为下一个符元的输入嵌入(图1)此修改使推理过程摆脱了语言空间的限制,并且由于连续的思想是完全可微分的,因此系统可以通过梯度下降进行端到端优化。为了增强潜在推理的训练,我们采用了一种受Deng等人启发的多阶段训练策略,该策略有效地利用语言推理链来指导训练过程。

有趣的是,我们提出的范式导致了一种高效的推理模式。 与基于语言的推理不同,Coconut 中的连续思想可以同时编码多个潜在的下一步,从而实现类似于广度优先搜索 (BFS) 的推理过程。 虽然模型最初可能无法做出正确的决策,但它可以在连续的思想中保持许多可能的选项,并通过推理逐步消除错误的路径,这些路径由一些隐式价值函数引导。 这种高级推理机制超越了传统的 CoT,即使模型没有被明确训练或指导以这种方式运行,如先前的工作所示。

实验表明,Coconut 成功地增强了大型语言模型 (LLM) 的推理能力。 对于数学推理 (GSM8k,Cobbe et al., 2021),使用连续思想已被证明有利于提高推理精度,这反映了语言推理链的效果。这表明可以通过链接更多的连续思想来扩展并解决日益复杂的难题。在逻辑推理方面,包括ProntoQA,以及我们新提出的ProsQA(第4.1节),后者需要更强的规划能力,Coconut及其一些变体甚至超越了基于语言的CoT方法,同时在推理过程中生成的符元显著减少。 我们相信这些发现强调了潜在推理的潜力,并可以为未来的研究提供宝贵的见解。


2 相关

思维链(CoT)推理。我们广泛使用“思维链”一词来指代在输出最终答案之前,在语言中生成中间推理过程的方法。这包括提示LLMs或训练LLMs生成推理链,无论是通过监督微调还是强化学习。Madaan和Yazdanbakhsh将CoT中的标记分为符号、模式和文本,并提出根据它们的作用引导LLM生成简洁的CoT。最近的理论分析证明了从模型表达能力角度CoT的有用性。通过采用CoT,transformer的有效深度增加,因为生成的输出被循环回输入。这些分析与CoT已建立的有效性相结合,激励我们的设计将连续的思考反馈给LLM作为下一个输入嵌入。虽然CoT已被证明对某些任务有效,但其自回归生成特性使其在更复杂的问题上模仿人类推理变得具有挑战性,这些问题通常需要规划和搜索。有一些工作为LLM配备了显式的树搜索算法,或者训练LLM在搜索动态和轨迹上。在我们的分析中,我们发现,在移除语言空间的约束后,即使模型没有明确以这种方式进行训练,也会出现类似于BFS的新推理模式。

LLMs中的潜在推理。先前的研究大多将LLMs中的潜在推理定义为Transformer中的隐藏计算。Yang等人构建了一个两步推理问题的数据集,并发现可以从隐藏表示中恢复中间变量。Biran等人进一步提出了通过“反向修补”隐藏表示来干预潜在推理。Shalev等人在LLMs中发现了并行潜在推理路径。另一项研究发现了即使模型生成CoT进行推理,模型实际上可能利用不同的潜在推理过程。这种现象被称为CoT推理的不忠实性。为了增强LLMs的潜在推理,先前的研究提出了通过添加额外标记来增强它。Goyal等人通过随机将可学习的<暂停>标记插入到训练语料库中预训练模型。这提高了LLMs在各种任务上的性能,尤其是在随后使用<暂停>标记进行监督微调时。另一方面,Pfau等人进一步探讨了填充标记的使用,例如“...”,并得出结论,它们对于高度可并行化的问题效果良好。然而,Pfau等人提到这些方法并不像CoT那样扩展LLM的表达能力;因此,它们可能无法扩展到更通用和复杂的推理问题。Wang等人提出在生成下一个推理步骤之前预测一个规划标记作为离散的潜在变量。最近,还发现可以通过知识蒸馏或特殊的训练课程,逐渐缩短CoT,将CoT推理“内化”到Transformer中的潜在推理。Yu等人还提出了从使用复杂推理算法生成的数据中推理的模型。这些训练方法可以结合到我们的框架中,特别是我们发现将连续思维的学习分解成多个阶段,受iCoT的启发,对训练非常有益。最近,循环Transformer被提出用于解决算法任务,这些任务与连续思维的计算过程有一些相似之处,但我们专注于常见的推理任务,旨在调查与语言空间相比的潜在推理。


3 Coconut :连续思维链

在本节中,我们介绍了我们为在无约束的潜在空间中进行推理而提出的新范式Coconut(连续思维链)。我们首先介绍我们用于语言模型的背景和符号。对于一个输入序列x = (x1, ..., XT),标准的大型语言模型M可以描述为:

Et = [e(x1), e(x2),.., e(xt)] 是到位置 t 的token嵌入序列;Ht ∈Rt×d是到位置 t 的所有token的最后一个隐藏状态的矩阵;ht 是位置 t 的最后一个隐藏状态,即 ht = Ht[t,:];e(•) 是token嵌入函数;W 是语言模型头的参数。

方法概述。在 Coconut 方法中,LLM 在语言模式和潜在模式之间切换(图 1):在语言模式下,该模型作为标准语言模型运行,自回归生成下一个 token。在潜在模式下,它直接利用最后一个隐藏状态作为下一个输入嵌入。这个最后的隐藏状态代表当前的推理状态,称为连续思维。

使用特殊token<bot>和<eot>分别标记潜在思维模式的开始和结束。例如,我们假设在位置i和j之间发生潜在推理,即xi = <bot>和xj = <eot>。当模型处于潜在模式(i < t < j)时,我们使用前一个标记的最后一个隐藏状态来替换输入嵌入,即Et = [e(x1), e(x2), ..., e(xi), hi, hi+1, .., ht-1]

图2 连续思维链(Coconut)的训练过程。给定带有语言推理步骤的训练数据,在每个训练阶段,我们整合c个额外的连续思维(本例中c=1),并移除一个语言推理步骤。然后对连续思维后的剩余标记使用交叉熵损失。

当潜在模式完成(t ≥ j)后,输入恢复使用token嵌入,即Et = [e(x1), e(x2),..., e(xi), hi, hi+1,..., hj-1, e(xj),..., e(xt)]。值得注意的是,最后的隐藏状态已经经过最终归一化层的处理,因此它们的幅度不是很大。当i < t < j时,M(xt+1 | xt)未定义,因为潜在思维不打算映射回语言空间。然而,为了探测目的,softmax (Wht)仍然可以计算(见第4节)。

训练流程。本工作专注于问题 - 解决设置,其中模型接收问题作为输入,并通过推理过程生成答案。我们利用语言 CoT 数据,通过实施受Deng等人启发的多阶段训练课程来监督连续思维。如图 2 所示,在初始阶段,模型在常规 CoT 实例上进行训练。在后续阶段,即第 k 阶段,CoT 中的前 k 个推理步骤被替换为 k × c 个连续思维,其中 c 是一个超参数,用于控制替换单个语言推理步骤的潜在思维的数量。遵循Deng等人的方法,我们在训练阶段切换时也重置优化器状态。我们插入(不计入c的)<bot>和<eot>token来封装连续思维。

在训练过程中,我们优化了正常负对数似然损失,但掩盖了问题和潜在思维上的损失。需要注意的是,目标并不鼓励连续思维压缩移除的语言思维,而是促进对未来推理的预测。因此,与人类语言相比,LLM有可能学习到更有效的推理步骤表示。

训练细节。我们提出的连续思维是完全可微分的,并允许反向传播。当在当前训练阶段安排n个潜在思维时,我们执行n + 1次前向传递,每次传递计算一个新的潜在思维,最后进行一次额外的正向传递以获得剩余文本序列的损失。虽然我们可以通过使用KV缓存来节省任何重复计算,但多次前向传递的顺序性质对并行性提出了挑战。进一步优化Coconut的训练效率仍然是未来研究的重要方向。

推理过程。Coconut 的推理过程类似于标准的语言模型解码过程,不同之处在于,在潜在模式下,我们直接将最后一个隐藏状态作为下一个输入嵌入。这样做面临的挑战是确定何时在潜在模式和语言模式之间切换。当专注于问题 - 解决设置时,本文会在问题 token 后立即插入一个 < bot >token。对于 < eot >,作者考虑两种潜在策略:a) 在潜在思维上训练二元分类器,使模型能够自主决定何时终止潜在推理,或 b) 始终将潜在思维填充到恒定长度。我们发现这两种方法效果都相当好。因此除非另有说明,我们在实验中使用第二种选项以简化操作。


4 实验

我们通过在三个数据集上的实验验证了在连续潜在空间中LLM推理的可行性。我们主要通过比较模型生成的答案与真实值来评估准确性。每个问题生成的新token数量也被分析,作为推理效率的衡量标准。我们在附录B中报告了锁定时间的比较。

4.1 推理任务

数学推理。我们使用GSM8k作为数学推理的数据集。它包含小学水平的数学问题。与其他实验中的数据集相比,这些问题更加多样化和开放领域,与实际应用场景非常相似。通过这个任务,我们探索了潜在推理在实用应用中的潜力。为了训练模型,我们使用Deng等人生成的合成数据集。

逻辑推理。逻辑推理涉及正确应用已知条件,使用逻辑规则证明或反驳结论。这要求模型从多个可能的推理路径中选择,正确的决策通常依赖于探索和提前规划。我们使用5-hop ProntoQA问题,带有虚构的概念名称。对于每个问题,随机生成一个树状本体,并用自然语言描述为已知条件的一组。模型被要求根据这些条件判断给定的陈述是否正确。这作为更高级推理任务(如自动定理证明)的简化模拟。

我们发现ProntoQA的生成过程可能更具挑战性,特别是由于本体中干扰分支的大小始终很小,减少了复杂规划的需求。为了解决这个问题,我们应用了一个新的数据集构建流程,使用随机生成的DAG来结构化已知条件。结果数据集要求模型在图中进行大量规划和搜索,以找到正确的推理链。我们将这个新数据集称为ProsQA(带有搜索的证明问答)。可视化示例如图6所示。数据集的更多详细信息可以在附录A中找到。

4.2 实验设置

我们使用预训练的 GPT-2作为所有实验的基础模型。学习率设置为 1 x 10^-4,而有效批量大小为 128。遵循Deng等人,当训练阶段切换时,我们也重置优化器。

数学推理。默认情况下,我们为每个推理步骤使用 2 个潜在思维(即,c = 2)。我们在第 4.4 节分析性能与 c 之间的相关性。模型除了初始阶段外,还要经历 3 个阶段。然后,我们有一个额外的阶段,其中我们仍然使用与倒数第二个阶段相同的 3 x c 连续思维,但移除所有剩余的语言推理链。这处理了推理链长度超过 3 步的长尾分布。我们在初始阶段训练模型 6 个周期,在每个剩余阶段训练 3 个周期。

逻辑推理。我们为每个推理步骤使用一个连续思维(即,c = 1)。除了初始阶段外,模型还要经历 6 个训练阶段,因为这两个数据集中推理步骤的最大数量是 6。然后,模型在最后阶段完全使用连续思维来解决问题。每个阶段我们训练模型 5 个周期。

对于所有数据集,在标准计划之后,模型保持在最终训练阶段,直到第 50 个周期。我们根据验证集上的准确率选择检查点。对于推理,我们手动设置连续思维的数目,以与它们的最终训练阶段保持一致。我们为所有实验使用贪婪解码。

4.3 Coconut的基线方法和各种版本

表1 在三个数据集(GSM81、ProntoQA和ProsQA)上的结果:更高的准确率表示更强的推理能力,而生成更少的token表示更高的效率。

我们考虑以下基线:(1)CoT:我们使用完整的推理链通过监督微调训练语言模型,在推理过程中,模型在输出答案前生成一个推理链。(2)no-CoT:LLM被训练直接生成答案,而不使用推理链。(3)iCoT:该模型使用语言推理链进行训练,并遵循一个精心设计的计划,将CoT“内化”。随着训练的进行,推理链开头的标记逐渐被移除,直到只剩下答案。在推理过程中,模型直接预测答案。(4)Pause token:该模型仅使用问题和答案进行训练,而不使用推理链。然而,与No-CoT不同,在问题和答案之间插入特殊的<Pause>token,这被认为为模型提供了额外的计算能力来推导答案。为了公平比较,<Pause>token的数量被设置为与Coconut中的连续思维相同。

我们还评估了我们方法的一些变体:(1)w/o curriculum:不是使用多阶段训练,而是直接使用最后一阶段的数据来训练Coconut,该阶段只包括问题和答案。该模型使用连续思维来解决整个问题。(2)w/o thought:我们保持多阶段训练,逐步移除语言推理步骤,但不使用任何连续的潜在思维。虽然这与iCoT在高级思想上是相似的,但具体的训练计划被设置为与Coconut一致,而不是iCoT。这确保了更严格的比较。(3)Pause as thought:我们使用特殊的<Pause>token来替换连续思维,并应用与Coconut相同的同多阶段训练课程。

4.4 结果与讨论

我们在表1中展示了所有数据集的整体结果。连续思维有效地增强了LLM推理,这从与non-CoT相比的持续改进中可以看出。甚至在ProntoQA和ProsQA上表现优于CoT。

以下是我们从实验中得出的几个关键结论。

“链式”连续思维增强了推理。在传统的CoT中,输出token作为下一个输入,这被证明可以增加LLM的有效深度并增强其表现力。我们探讨了潜在空间推理是否保留这一特性,因为这将表明这种方法可以通过链式多个潜在思维来扩展以解决越来越复杂的问题。

图3 不同连续思考次数在GSM8k上的准确率。

在我们的GSM8k实验中,我们发现Coconut在与其他采用类似策略训练的架构相比表现更优,尤其是超越了最新的基线iCoT。性能显著优于Coconut(Pause as thought),这也使得在LLMs中可以进行更多的计算。虽然Pfau等人通过实证研究表明,填充tokens,如特殊的<pause> tokens,可以极大地促进高度可并行化问题的解决,但我们的结果显示,Coconut架构在处理一般问题时更为有效,例如数学文字题,其中推理步骤通常严重依赖于前面的步骤。此外,我们尝试调整超参数c,该参数控制与一个语言推理步骤相对应的潜在思维的数量(图3)。随着我们将c从0增加到1再到2,模型的性能稳步提升。这些结果表明,在潜在空间中可以观察到类似于CoT的链式效应。

在另外两个合成任务中,我们发现Coconut的变体(w/o thoughtPause as thought)、iCoT基线也实现了令人印象深刻的准确度。这表明在这些任务中,模型的计算能力可能不是瓶颈。相比之下,GSM8k作为一个开放域问答任务,可能涉及更复杂的上下文理解和建模,对计算能力提出了更高的要求。

潜在推理在规划密集型任务中优于语言推理。复杂的推理通常需要模型“前瞻性”地评估每一步的适当性。在我们的数据集中,GSM8k和ProntoQA由于直观的问题结构和有限的分支,在下一步预测方面相对直接。相比之下,ProsQA随机生成的DAG结构对模型的规划能力提出了重大挑战。如表1所示,CoT在No-CoT之上并没有带来显著的改进。然而,Coconut及其变体和iCoT显著增强了ProsQA上的推理,这表明潜在空间推理在需要广泛规划的任务中提供了明显的优势。第5节提供了对这个过程的深入分析。

LLM仍然需要指导来学习潜在推理。在理想情况下,模型应该通过在问题和答案上的梯度下降自动学习最有效的连续思维(即,Coconutw/o curriculum)。然而,从实验结果来看,我们发现这样训练的模型并不比no-CoT表现更好。

采用将训练分解为更容易目标的多阶段课程,Coconut能够在各种任务中实现顶级性能。多阶段训练也与pause token(Coconut-Pause as thought)很好地结合。尽管使用相同的架构和类似的多阶段训练目标,我们观察到iCoT和Coconut(w/o thought)在性能上存在微小差距。iCoT中更细粒度的移除计划(逐个token)和几个其他技巧可能有助于简化训练过程。我们将iCoT和Coconut的结合留作未来工作。虽然用于Coconut的多阶段训练已被证明有效,但为了开发更好的、更通用的在潜在空间中进行推理学习的策略,特别是没有语言推理链的监督,进一步的研究无疑是必要的。

图4 我们将连续思维解码为语言标记的案例研究。

持续的思考是推理的高效表达。尽管持续的思考并非旨在解码为语言标记,我们仍然可以将其用作对连续思维的直观解释。我们在图4中展示了一个由Coconut(c = 1)解决的数学词汇问题的案例研究。第一个连续思维可以解码成像“180”、“ 180”(带空格)和“9”这样的标记。请注意,这个问题的推理轨迹应该是3 × 3 × 60 = 9 × 60 = 540,或者3 × 3 × 60 = 3 × 180 = 540。第一个思维的解释恰好是计算中的第一个中间变量。此外,它将不同轨迹的分布编码到连续思维中。如第5.3节所示,这一特性使得规划密集型推理任务能够实现更高级的推理模式。

图5 Coconut多个变体在ProsQA上的最终答案(左)和推理过程(右)的准确性


5 理解Coconut的潜在推理

在本节中,我们分析了一种Coconut变体的潜在推理过程。通过利用其在语言和潜在空间推理之间切换的能力,我们能够控制模型在完全潜在推理和完全语言推理之间进行插值,并测试它们的性能(第5.2节)。这也使我们能够将潜在推理过程解释为树搜索(第5.3节)。基于这一观点,我们解释了为什么潜在推理可以使LLM的决策更容易(第5.4节)。

5.1 实验设置

方法。Coconut的设计使我们能够在推理过程中通过手动设置<eot>token的位置来控制潜在思维的数量。当我们强制Coconut使用k个连续思维时,模型预计将从k + 1步开始输出剩余的推理链。在我们的实验中,我们在ProsQA上测试了椰子的k € {0, 1, 2, 3, 4, 5, 6}变体。请注意,所有这些变体在推理时间上有所不同,但共享相同的模型权重。此外,我们报告了CoT和no-CoT的性能作为参考。

为了解决忘记早期训练阶段的问题,我们通过始终以一定概率(p = 0.3)混合来自其他阶段的数据来修改原始的多阶段训练课程。这种更新的训练课程产生相似的性能,并能够有效控制潜在和语言推理之间的切换。

指标。我们应用了两套评估指标。其中之一基于最终答案的正确性,无论推理过程如何。这是上述主要实验结果中使用的指标(第4.4节)。为了实现细粒度分析,我们定义了另一个关于推理过程的指标。假设我们有一个完整的语言推理链,它指定了图中的路径,我们可以将其分类为(1)正确路径:输出是通向正确答案的最短路径之一。(2)较长路径:一个有效的路径,可以正确回答问题,但比最短路径长。(3)幻觉:路径包括不存在的边或是不连通的。(4)错误目标:图中的一个有效路径,但目标节点不是被询问的节点。这四个类别自然适用于Coconut(k = 0)和CoT的输出,它们生成完整路径。对于k > 0的Coconut,它只输出部分路径(在连续推理的初始步骤中),如果可以有一个有效的解释来完成它,我们将推理分类为正确路径。我们也为部分路径定义了较长路径和错误目标。如果没有有效的解释来完成路径,它被分类为幻觉。在no-CoT和较大k的Coconut中,模型可能只输出最终答案而没有任何部分路径,它属于(5)正确标签或(6)错误标签。这六个类别涵盖了所有情况,没有重叠。

图6 ProsQA案例研究。该模型在陷入死胡同后,通过CoT训练产生了幻觉(每个yumpus都是一个rempus)。CoconuT(k=1)输出了一条以无关节点结束的路径。CoconuT(k=2)正确解决了问题。

图7 潜在搜索树的插图。示例与图6中的相同测试用例。节点的高度(图中表示为h)定义为到图中任何叶节点的最长距离。我们展示了模型根据潜在思维预测的第一个概念的概率(例如,左图中的“lempus”)。这被计算为所有在先前上下文中条件下的标记的概率的乘积(图中省略以节省空间)。这个指标可以解释为模型估计的隐式价值函数,评估每个节点导致正确答案的潜力。

5.2 在潜在和语言推理之间进行插值

图5展示了不同推理方法在ProsQA上的比较分析。随着推理过程中连续思考的增加(k值增加),最终答案的准确性(图5左侧)和正确推理过程的比率(图5右侧的“正确标签”和“正确路径”)都得到了提高。此外,“幻觉”和“错误目标”的比率下降,这通常发生在模型在早期做出错误决策时。这也表明,当更多推理发生在潜在空间时,模型的规划能力更好。

图6展示了一个案例研究,其中CoT幻觉出一个不存在的边,Coconut(k = 1)导致错误目标,但CoconuT(k = 2)成功解决问题。在这个例子中,模型在早期步骤无法准确确定选择哪条边。然而,由于潜在推理可以避免在早期做出艰难的选择,模型可以在后续步骤中逐步消除错误选项,并在推理结束时达到更高的准确性。我们将在第5.3节中展示更多关于这个推理过程的证据和细节。

CoT与Coconut(k = 0)之间的比较揭示了另一个有趣的观察结果:即使在当Coconut被迫生成一个完整的推理链,答案的准确性仍然高于CoT。生成的推理路径也更加准确,幻觉更少。由此,我们可以推断混合不同阶段的训练方法提高了模型的前瞻能力。CoT的训练目标始终集中在生成下一步,使模型“短视”。在椰子训练的后期阶段,前几步是隐藏的,使模型能够更多地关注未来步骤。这与Gloeckle等人的研究结果有关,他们提出多token预测作为新的预训练目标,以提高LLM的前瞻能力。

5.3 潜在搜索树的解释

考虑到连续思维可以编码多个潜在的下一步,潜在推理可以解释为一个搜索树,而不仅仅是推理“链”。以图6为例,第一步可能是选择Alex的一个孩子,即{lempus, sterpus, zhorpus, grimpus}。我们在图7的左侧展示了所有可能的分支。同样,在第二步,前沿节点将是Alex的孙子(图7,右侧)。

与标准广度优先搜索(BFS)不同,后者均匀地探索所有前沿节点,该模型展示了优先考虑有希望的节点并剪枝不那么相关的节点的能力。为了揭示模型的选择偏好,我们分析其在语言空间中的后续输出。例如,如果模型在单个潜在思维(k = 1)后被迫切换回语言空间,它将以结构化格式预测下一步,例如“每个[概念A是[概念B|。”通过检查[概念A]潜在填充物的概率分布,我们可以为根节点Alex的孩子(图7,左侧)推导出数值。

同样,当k = 2时,获得所有前沿节点——Alex的孙子的预测概率(图7,右侧)。概率分布可以视为模型的隐式价值函数,估计每个节点达到目标的可能性。如所示,“lempus”、“zhorpus”、“grimpus”和“sterpus”的价值分别为0.33、0.16、0.32和0.01。这表明在第一次连续思维中,模型主要排除了“sterpus”作为选项,但仍然对其他三个选项的正确选择不确定。然而,在第二次思维中,模型主要排除了其他选项,但专注于“torpus”。

图8展示了模型在第一和第二次思维中的潜在推理的并行性分析。对于第一次思维(左侧面板),计算并绘制了候选节点top-1、top-2和top-3的累积值,与测试集中各自的百分位数相对应。三条线之间的明显差距表明,模型在这个阶段的推理路径上保持了显著多样性,表明对替代可能性的广泛探索。相比之下,第二想法(右侧面板)显示这些差距的缩小。这一趋势表明,模型在第二个潜在推理步骤中从并行探索过渡到更集中的推理,可能是因为它对最有希望的道路有了更多的确定性。

5.4 为什么潜在空间更适合规划?

在本节中,我们探讨为什么潜在推理对规划有利,借鉴了之前定义的搜索树视角和价值函数。参考我们的示例,"sterpus"与其他三个选项的关键区别在于搜索树的结构:"sterpus"是一个叶子节点(图6)。这使得它立即可以被识别为错误的选择,因为它不能导向目标节点"bompus"。相比之下,其他节点有更多的后代需要探索,这使得它们的评估更具挑战性。为了量化一个节点的探索潜力,我们测量它在树中的高度,定义为到任何叶子节点的最短距离。基于这个概念,我们假设高度较低的节点更容易准确评估,因为它们的探索潜力有限。与这个假设一致,在我们的例子中,模型在"grimpus"和"lempus"之间表现出更大的不确定性,它们的高度都是2,比其他候选人都要高。

图9 概念预测概率与其高度的相关性。

为了更严格地测试这个假设,我们分析了模型在测试集的第一和第二次潜在推理步骤中预测概率与节点高度之间的相关性。图9揭示了一个明显的模式:当节点高度较低时,模型成功地将较低的价值分配给错误节点,将较高的价值分配给正确节点。然而,随着节点高度的增加,这种区别变得不那么明显,这表明准确评估的难度更大。

总之,这些发现突出了利用潜在空间进行规划的好处。通过推迟确定性的决策并扩展潜在推理过程,模型使其探索更接近搜索树的终端状态,从而更容易区分正确节点和错误节点。


6 结论

在本文中,我们提出了Coconut,一种在连续潜在空间中进行推理的新范式。通过广泛的实验,我们证明了Coconut著增强了LLM的推理能力。

值得注意的是,我们的详细分析突出了无约束的潜在空间如何使模型发展出类似于BFS的有效推理模式。未来需要进一步精炼和扩展潜在推理方法。一个有前景的方向是使用连续思维对LLM进行预训练,这可能使模型能够更有效地泛化到更广泛的推理场景中。我们预计,我们的发现将激发对潜在推理方法的进一步研究,最终有助于更先进的机器推理系统的发展。


关注本公众号,后台回复1221】获取论文原文

关注青哥谈AI,了解最新AI资讯



53AI,企业落地应用大模型首选服务商

产品:大模型应用平台+智能体定制开发+落地咨询服务

承诺:先做场景POC验证,看到效果再签署服务协议。零风险落地应用大模型,已交付160+中大型企业

联系我们

售前咨询
186 6662 7370
预约演示
185 8882 0121

微信扫码

与创始人交个朋友

回到顶部

 
扫码咨询