我要投稿

哈佛和微软亚洲最新发布：rSTAR，让小模型也能成为推理高手

发布日期：2024-08-22 22:47:39 浏览次数： 2866

作者：AI修猫Prompt

微信搜一搜，关注“AI修猫Prompt”

即便是最先进的LLM在复杂推理任务中仍面临着巨大挑战。更令人担忧的是，规模较小的语言模型(SLM)在这些任务上的表现更是差强人意，但近端设备的快速发展又催生着SLM的强烈需求。这种强需求弱表现的现象，也为AI研究者们带来了一个迫切需要解决的难题。

近日，一个由哈佛大学和微软亚洲研究院联合组成的研究团队提出了一种名为rStar的创新方法，为这个难题带来了突破性的解决方案。这项研究不仅在理论上独具匠心，更在实践中取得了令人瞩目的成果。所采用的模型也是常见的小模型，方法上具有很强的泛化能力。

图片由修猫创作

研究者的效率是惊人的，rStar引用了7月30日斯坦福和剑桥的“大语言模型猴子”的重复采样用以提高决策质量（我是8月2日为大家介绍的）。rStar是“猴子”发表之后不到两周的时间（8月12 日）发表的，上周我还介绍过Agent Q，也引用了“猴子”。在国内，仅Related Work怎么也得写两周吧，这效率很值得我们反思。“猴子”这篇文章现在已被引用2次（我的更新速度比google scholar（scholar引用只有这一篇）还快），有兴趣可以看看“猴子”这篇。这篇引用文章强调了在使用大型语言模型时，采用多次采样策略可以显著提高推理性能。rStar方法也采用了类似的思想，通过多次MCTS rollout来生成多样化的推理路径。

rStar：无需微调的推理能力提升

rStar的核心理念是通过自我对弈的互相推理过程，在不需要微调或使用更强大模型的情况下，显著提升SLM的推理能力。这种方法巧妙地将推理过程分解为生成-判别的双重过程，既充分发挥了SLM的潜力，又克服了其固有的局限性。为了更直观地展示rStar的优势，研究团队提供了一张详细的对比图，展示了不同模型和方法在GSM8K数学推理任务上的表现。

1. 基线性能：

- LLaMA2-7B的Few-shot CoT基线性能仅为12.51%，这凸显了小型模型在复杂推理任务上的固有局限性。

- Mistral-7B的基线性能为36.46%，虽然比LLaMA2-7B有所提升，但仍有很大改进空间。

- LLaMA3-8B-Instruct的基线性能达到74.63%，显示出指令微调对推理能力的显著提升。

2. 微调方法的效果：

- MathScale和MetaMath等专门针对数学推理任务的微调方法确实能大幅提升模型性能。例如，LLaMA2-7B经过MathScale微调后，准确率从12.51%提升到66.3%。

- 然而，这些微调方法的效果在不同模型上有所不同。对于已经表现不错的LLaMA3-8B-Instruct，微调带来的提升相对较小。

3. rStar的卓越表现：

- 在所有测试的模型中，rStar都显著提升了性能，且不需要任何额外的微调。

- 对于LLaMA2-7B，rStar将准确率从12.51%提升到63.91%，几乎与专门微调的方法相当。

- 对于Mistral-7B，rStar的表现甚至超过了所有微调方法，达到81.88%的准确率。

- 对于LLaMA3-8B-Instruct，rStar进一步将其准确率提升到91.13%，远超其他方法。

4. GPT-4的参考性能：

- 图中还标注了GPT-4的性能(91.13%)，作为当前最先进大型模型的参考点。

- 值得注意的是，rStar使LLaMA3-8B-Instruct达到了与GPT-4相当的性能水平，这是一个令人印象深刻的成就。

这张图清晰地展示了rStar的强大之处。它不仅能显著提升小型模型的性能，甚至能让它们在特定任务上达到或接近大型模型的水平。

创新的MCTS生成器

rStar的第一个关键组件是一个基于蒙特卡洛树搜索(MCTS)的生成器。这个生成器通过模拟人类的推理行为，大大扩展了SLM探索解决方案的空间。

研究团队设计了五种推理动作：

1. 提出单步思考

2. 提出剩余的思考步骤

3. 提出下一个子问题及其答案

4. 重新回答子问题

5. 重新表述问题/子问题

这些动作不仅模拟了人类解决问题时的多样化思考方式，还能根据当前状态灵活选择最合适的动作。这种设计使得SLM能够更全面、更深入地探索问题空间，大大提高了生成高质量推理轨迹的可能性。

互相一致性判别器

rStar的第二个关键组件是一个基于互相一致性的判别器。这个判别器的设计灵感来自于人类在缺乏监督的情况下如何判断答案的正确性- 通常是通过与同伴的讨论和验证。

在rStar中，研究者引入了另一个具有相似能力的SLM作为判别器。这个判别器会对生成器产生的每条推理轨迹提供无监督反馈。具体做法是：

1. 随机选择一个推理步骤作为起点

2. 将之前的推理步骤作为提示给判别器

3. 让判别器完成剩余的推理步骤

4. 比较判别器的结果与原始轨迹是否一致

这种方法不仅降低了判别的难度，还提高了获得正确答案的可能性。如果两个SLM能够得出一致的结论，那么这个结论更有可能是正确的。

rStar的工作流程：从生成到验证的全过程

为了更好地理解rStar如何提升小型语言模型(SLM)的推理能力，我们来详细解析其工作流程。这个过程可以分为两个主要阶段：自生成候选解决方案和互相推理验证。

阶段1：自生成候选解决方案

在这个阶段，一个SLM（称为SLM1）作为自生成器，负责生成多个可能的解决方案。以图中的问题为例：

"约翰购买了3大袋M&M豆来分装。他买了3个大袋，每袋重10盎司。如果每个小袋中装10个M&M豆，他能制作多少个小袋？"

SLM1会生成多个不同的推理过程，例如：

1. "让我们一步步思考。约翰购买了3个大袋，每袋重10盎司..."

2. "让我们一步步思考。约翰买了3大袋M&M豆，每袋重10盎司..."

3. "让我们一步步思考。约翰买了3大袋M&M豆，每袋重10盎司..."

这些生成的解决方案可能会有所不同，有些可能是正确的，有些可能包含错误。这种多样性的生成是rStar方法的关键，它为下一阶段的验证提供了基础。

阶段2：互相推理验证

在这个阶段，另一个SLM（称为SLM2）作为判别器，负责验证SLM1生成的解决方案。这个过程的独特之处在于：

1. SLM2会接收到SLM1生成的部分解决方案作为提示。

2. 基于这个部分提示，SLM2会尝试完成剩余的推理过程。

3. SLM2的输出会与SLM1的原始解决方案进行比较。

如果SLM2的推理结果与SLM1的解决方案一致，这个解决方案就被认为是"互相一致"的，因此更有可能是正确的。

最终答案选择

在生成和验证过程之后，系统会选择那些通过互相推理验证的解决方案作为最终答案。在图中的例子里，正确的解答是：

"约翰买了3大袋M&M豆，每袋重10盎司。这意味着他总共有3 * 10 = 30盎司的M&M豆。由于每盎司含有30个M&M豆，他总共有30 * 30 = 900个M&M豆。如果他在每个小袋中放入10个M&M豆，他可以制作900 / 10 = 90个小袋。答案是90。"

这个工作流程的优势在于：

1. 多样性探索：通过生成多个候选解决方案，增加了找到正确答案的机会。

2. 自我验证：利用另一个SLM进行验证，模拟了人类在解决问题时的"二次检查"过程。

3. 无需外部知识：整个过程都在SLM的固有知识范围内进行，不需要额外的训练数据或外部资源。

4. 提高可靠性：通过互相验证，减少了单个模型可能产生的错误。

这种创新的方法使得小型语言模型能够在复杂推理任务上达到接近大型模型的表现，同时保持了计算效率和灵活性。

实验结果：令人瞩目的性能提升

rStar的效果究竟如何?研究团队在五个不同的SLM和五个不同的推理任务上进行了广泛的实验，结果令人振奋。

GSM8K：数学推理的里程碑

在GSM8K数据集上，rStar实现了惊人的性能提升：

- LLaMA2-7B：从12.51%提升到63.91%

- Mistral-7B：从36.46%提升到81.88%

- LLaMA3-8B：从47.23%提升到85.52%

这些结果不仅大幅超越了基线方法，甚至接近或超过了通过领域专门微调后的性能。特别值得一提的是，Mistral-7B在使用rStar后的表现甚至超过了经过微调的MetaMath模型4.18个百分点。

其他任务：全面的能力提升

除了GSM8K，rStar在其他推理任务上也展现出了强大的性能：

- GSM-Hard：最高提升12.9个百分点

- MATH-500：最高提升9.14个百分点

- SVAMP：最高提升26.8个百分点

- StrategyQA：最高提升8.43个百分点

这些结果充分证明了rStar方法的泛化能力，它不仅在数学推理上表现出色，在常识推理任务中也有显著提升。

深入解析rStar的工作原理

那么，rStar是如何实现这些令人印象深刻的结果的呢?让我们深入了解其工作原理。

问题形式化：多步推理生成

rStar将推理问题形式化为一个多步推理生成任务。这种方法比传统的思维链(Chain-of-Thought)推理更有效，因为它将复杂问题分解成更简单的子任务，这对SLM来说更容易处理。

rStar使用MCTS算法来增强目标SLM，逐步构建一个搜索树。在这个树中：

- 根节点代表原始问题

- 边代表一个动作

- 子节点代表在相应动作下生成的中间步骤

- 从根节点到叶节点的路径构成一个候选解决方案轨迹

这个公式的目的是在"利用"（选择当前看起来最好的动作）和"探索"（尝试可能被低估的动作）之间取得平衡。

Q(s,a) / N(s,a)：这部分代表动作 a 在状态 s 下的平均奖励。

Q(s,a) 是状态-动作对 (s,a) 累积的总奖励

N(s,a) 是状态-动作对 (s,a) 被访问的次数

c * sqrt(ln(N_parent(s)) / N(s,a))：这是探索项

c 是一个常数，用于平衡探索和利用

N_parent(s) 是状态 s 的父节点被访问的次数

sqrt(ln(N_parent(s)) / N(s,a)) 鼓励访问次数较少的动作

当一个动作的平均奖励高时，Q(s,a) / N(s,a) 项会增大，鼓励选择这个动作。

当一个动作很少被选择时，探索项会增大，鼓励尝试这个动作。

通过使用这个公式，UCT算法可以有效地在搜索树中选择最有前景的路径，同时也不忽视潜在的好选择，从而在有限的计算资源下找到较好的解决方案。

MCTS生成器：丰富的动作空间

rStar的MCTS生成器最大的创新在于其丰富的动作空间。这些动作不仅模拟了人类的推理行为，还能根据当前状态灵活选择，极大地提高了生成高质量推理轨迹的可能性。

五种核心动作的详细说明：

1. 提出单步思考：这个动作让SLM生成下一个单步思考，考虑已有的推理步骤。这比生成完整的思维链更简单，允许SLM做出更好的决策。

2. 提出剩余的思考步骤：这个动作类似于标准的思维链，允许SLM直接生成剩余的步骤直到得出最终答案。这种"快速思考"对于简单问题特别有效。

3. 提出下一个子问题及其答案：这个动作受到"从少到多"提示方法的启发，将复杂问题分解为一系列更简单的子问题并依次解决。

4. 重新回答子问题：考虑到子问题可能没有被正确回答，这个动作允许SLM使用少样本思维链方法重新回答子问题，提高准确性。

5. 重新表述问题/子问题：这个动作旨在解决SLM可能误解问题的情况，通过更简单地重新表述问题，明确列出所有给定的条件。

奖励函数：SLM定制的评估方法

rStar引入了一个专为SLM设计的简单但有效的奖励函数。这个函数避免了对中间节点的自我评估，因为SLM在这方面的能力有限。相反，它根据每个动作对最终正确答案的贡献来评分。

- 初始时，所有未探索的节点的奖励值Q(s，a)设为0

- 当到达第一个终端节点时，根据是否达到正确答案计算奖励分数

- 这个分数然后反向传播到轨迹上的每个中间节点

- 对于终端节点的奖励值，使用自一致性多数投票的似然(置信度)作为奖励值

这种设计确保了那些经常导致正确答案的动作会获得更高的奖励，从而在未来的MCTS树扩展中更有可能被选择。

互相一致性判别：创新的验证机制

rStar的互相一致性判别机制是其另一个关键创新。这个机制不仅提高了答案验证的准确性，还避免了训练奖励模型的复杂性和过拟合风险。

判别过程的详细步骤：

1. 对于生成器产生的每条推理轨迹，随机选择一个点将其分成两部分

2. 将前半部分作为提示给判别器SLM

3. 让判别器完成剩余的推理步骤

4. 比较判别器的结果与原始轨迹是否一致

5. 如果一致，则认为这条轨迹是有效的，可以用于最终选择

这种方法模拟了人类在缺乏监督的情况下如何通过同伴讨论来验证答案的过程。它不仅提高了验证的准确性，还避免了对单一模型自我评估的过度依赖。

rStar的MCTS生成器

rStar方法的一个关键创新在于其Monte Carlo树搜索(MCTS)生成器。这个生成器通过模拟人类的多样化思考过程，大大扩展了小型语言模型(SLM)探索解决方案的能力。让我们通过一个具体例子来详细解析这个过程。

问题示例

考虑这样一个数学问题：

"有多少个两位数质数，其数字之和等于8？"

五种核心推理行动

MCTS生成器为SLM提供了五种不同的推理行动，每种行动模拟了人类解决问题时的不同思考方式：

1. 提出单步思考(A1)：

例如："枚举从11开始的两位数质数。"

这种行动允许模型逐步推进推理过程，类似于人类的一步步思考。

2. 完成剩余思考(A2)：

例如："让我们一步步思考。我们关注两位数..."

这种行动让模型可以一次性完成剩余的推理步骤，适用于模型已经有清晰思路的情况。

3. 提出子问题并回答(A3)：

例如："哪些是两位数质数可能的数字之和？"

这种行动模拟了人类将复杂问题分解为更简单的子问题的过程。

4. 重新回答子问题(A4)：

在图中没有直接示例，但这种行动允许模型重新考虑之前的子问题，提高答案的准确性。

5. 重新表述问题(A5)：

例如："该数是两位数质数。数字之和是8。有多少这样的数存在？"

这种行动帮助模型从不同角度理解问题，有时能够揭示新的解决路径。

MCTS树的构建过程

1. 根节点：

树的根节点是原始问题。

2. 展开：

MCTS通过选择不同的行动来展开树。每个行动leads to一个新的节点，代表推理过程的一个新状态。

3. 多样化探索：

- 一些分支可能会直接枚举质数："17、53、67和83是符合条件的数。"

- 另一些分支可能会分析数字组合："加起来等于8的数字对有哪些？"

- 还有一些分支可能会重新定义问题范围："考虑10到99之间的数..."

4. 深度探索：

树的某些分支可能会深入到具体的计算步骤，如"计数得到4个这样的质数。答案是4。"

这种设计的优势

1. 全面性：通过多种行动，MCTS能够从不同角度探索问题空间，增加找到正确解决方案的可能性。

2. 灵活性：不同的行动适用于不同类型的问题和推理阶段，使得系统能够适应各种复杂的推理任务。

3. 模拟人类思维：这种多样化的行动空间很好地模拟了人类解决问题时的思维过程，包括分解问题、重新思考、验证等步骤。

4. 提高效率：通过允许模型在不同抽象层次上思考问题（从具体的数字枚举到抽象的问题重构），这种方法能够更有效地利用模型的计算资源。

5. 克服局限性：对于SLM来说，一次性生成完整的推理链往往是困难的。但通过这种多步骤、多角度的探索方法，即使是能力有限的模型也能够逐步构建出复杂的推理过程。

通过这种精心设计的MCTS生成器，rStar能够显著提升SLM在复杂推理任务上的表现。这不仅展示了如何更好地利用现有模型的潜力，也为未来AI系统在推理能力上的提升提供了新的思路。

rStar的优势：全面的分析

rStar相比于现有方法有哪些优势?研究团队通过一系列消融实验和对比分析，全面展示了rStar的强大之处。

对比现有方法

1. 单轮推理方法(如零样本和少样本思维链)：rStar在所有任务上都显著优于这些方法，证明了多轮推理的优势。

2. 多轮提示方法(如自一致性)：虽然自一致性在数学任务上表现不错，但在逻辑推理任务(如StrategyQA)上效果较差。相比之下，rStar在所有任务上都保持高性能。

3. 自我改进技术(如RAP、ToT)：这些方法虽然有一定效果，但仍无法达到rStar的水平。例如，在GSM8K上，rStar比RAP高出2.88%-16.39%，比ToT高出10.60%-38.37%。

生成器的有效性

即使不使用判别器，仅靠rStar的MCTS生成器也能显著提升SLM的推理准确率。这证明了其丰富动作空间设计的有效性。例如，在GSM8K上，仅使用生成器的rStar就比RAP高出1.69%-7.34%的准确率。

判别器的重要性

研究团队还比较了不同判别方法的效果：

1. 多数投票：这是最简单的方法，但效果有限

2. 自我验证：虽然比多数投票好，但仍不如rStar的互相一致性判别

3. rStar的互相一致性判别：在所有任务上都表现最佳

值得注意的是，即使使用比生成器更弱的模型作为判别器，rStar仍然能够有效地验证答案。这说明互相一致性的设计理念是合理且有效的。

计算效率

虽然rStar需要多轮推理，但其计算效率仍然很高。研究显示，即使只进行2轮rollout，rStar就能显著提升SLM的推理准确率。这意味着在实际应用中，可以通过调整rollout次数来平衡性能和计算成本。

rStar的潜在应用

rStar的成功不仅仅是学术上的突破，它为SLM在实际应用中的推广开辟了新的可能性。让我们探讨一下rStar可能带来的影响和应用前景。

1. 提升小型设备的AI能力

随着边缘计算和物联网的发展，在计算资源有限的小型设备上部署高性能AI模型变得越来越重要。rStar为这一挑战提供了一个可行的解决方案。通过显著提升SLM的推理能力，rStar使得在智能手机、家用机器人等设备上部署强大的AI助手成为可能，而无需依赖云端的大型模型。

2. 降低AI应用的成本

大型语言模型的训练和部署成本高昂，这限制了其在许多领域的应用。rStar通过提升SLM的能力，为企业和开发者提供了一个更经济的选择。这可能会推动AI技术在更多行业和场景中的应用，特别是对于那些预算有限的中小企业和创业公司。

3. 个性化AI助手的发展

rStar的方法为开发更加个性化的AI助手提供了新的思路。由于SLM更容易在本地设备上运行和适应，开发者可以基于rStar创建能够根据用户习惯和需求不断学习和改进的AI助手，而不需要频繁地与云端同步或更新大型模型。

4. 教育领域的应用

rStar的多步推理和自我验证机制与人类学习过程有许多相似之处。这为开发新型的教育AI工具提供了inspiration。例如，可以设计基于rStar的智能辅导系统，不仅能够解答学生的问题，还能引导学生学习如何一步步思考和验证自己的答案。

5. 科学研究的辅助工具

复杂的科学推理往往需要多步骤、多角度的思考。rStar的方法可以被应用到科学研究辅助工具的开发中，帮助研究人员更好地探索复杂问题、生成假设和验证理论。这可能会加速科学发现的过程，特别是在处理大量数据和复杂关系的领域，如生物信息学、材料科学等。

6. 提升自然语言处理任务的性能

rStar的成功不仅限于数学和逻辑推理任务。这种方法也可以被应用到其他需要复杂推理的自然语言处理任务中，如文本摘要、问答系统、语义分析等。通过多步推理和互相验证，SLM可能在这些任务上达到接近大型模型的性能。

这项研究的意义远不止于学术层面。它为AI技术的普及和应用开辟了新的可能性，让我们看到了在不依赖庞大计算资源的情况下，也能实现高质量AI推理的希望。然而，我们也要认识到，rStar并非完美无缺。它仍然面临着计算效率、知识整合、任务泛化等方面的挑战。这些挑战正是未来研究的方向，也是推动AI技术继续前进的动力。

我利用以上知识要点总结了一份SYSTEM PROMPT去试着考虑一个问题，假设我们已经实现通用人工智能AGI。在这一突破后的前五年，可能会出现哪些最显著的社会变化?

53AI，企业落地大模型首选服务商

产品：场景落地咨询+大模型应用平台+行业解决方案

承诺：免费场景POC验证，效果验证后签署服务协议。零风险落地应用大模型，已交付160+中大型企业