我要投稿

神奇的提示发现-重复阅读（Re-Reading）可以提升大型语言模型的推理能力

发布日期：2024-10-11 07:28:24 浏览次数： 2691

作者：苏哲管理咨询

微信搜一搜，关注“苏哲管理咨询”

摘要

为了增强现有的大型语言模型（LLMs）的推理能力，我们引入了一种简单、通用且有效的提示方法RE2，即将问题重新阅读作为输入。与大多数引发思考的提示方法（如CoT）不同，这些方法旨在引发输出中的推理过程，RE2将焦点转移到输入上，通过两次处理问题来增强理解过程。因此，RE2表现出强大的通用性，与大多数引发思考的提示方法（包括CoT）兼容。至关重要的是，RE2在仅包含单向解码器的LLMs中促进了“双向”编码，因为第一次传递可以为第二次传递提供全局信息。我们从一个初步的实证研究开始，将其作为RE2的基础，展示其潜力实现“双向” 注意机制。然后，我们在跨越112个实验的14个数据集上评估RE2，验证其有效性和通用性。我们的研究表明，除了在一些普通ChatGPT情景下，RE2通过简单的重读策略始终提升了LLMs的推理性能。进一步的分析揭示了RE2的适应性，展示了它如何有效地与不同的LLMs、引发思考的提示方法和集成策略集成。

1介绍

2方法

2.1推理的香草思维链（Vanilla Chain-of-Thought ）

2.2重读（RE2）能提高推理能力

2.3 RE2的普适性

3实验结果

3.1基准测试

3.2语言模型和实现

3.3评估结果

3.4讨论

4相关工作

结论和未来工作

限制

道德

参考文献

A数据集

B具体提示方法

C注意力分析

D案例研究

E更多案例

1介绍

在人工智能不断发展的领域中，大型语言模型（LLMs）已经成为自然语言理解和生成的基石（Brown等，2020年；Touvron等，2023年a,a；OpenAI，2023年）。随着这些LLMs在功能上的增强，一个关键性挑战浮出水面：赋予它们使得他们能够CoT

输入：

罗杰有5个网球。他买了2罐网球。每罐有3个网球。现在他有多少个网球？

A:让我们逐步思考。

CoT+RE2

输入：

罗杰有5个网球。他买了2罐网球。每罐有3个网球。他现在一共有多少个网球？

罗杰有5个网球。他买了2罐网球。每罐有3个网球。现在他有多少个网球？

A:让我们一步一步地思考

图1：CoT提示与使用RE2的CoT提示的示例输入。RE2是一种简单的提示方法，它将问题作为输入重复。通常，问题中的词元，如“网球”，在LLMs的原始设置中无法看到后续的词元。

相比之下，具有RE2的LLMs允许第二次传递中的“网球”看到包含“多少…”的整个问题，实现了“双向”理解的效果（下图）。

人类智力的一个显著特征是理性推理能力。具备进行理性推理的能力使我们能够推断、演绎和解决问题。对于大语言模型（LLMs）来说，这种技能对于增强它们的实际效用至关重要。尽管它们具有非凡的能力，但LLMs经常在微妙的推理方面遇到困难（Blair-Stanek等，2023年；Arkoudas，2023年），促使研究人员探索创新策略来增强它们的推理能力（Wei等，2022b；Gao等，2023年；Besta等，2023年）。

现有的推理研究主要集中在设计各种引发思维的提示策略，以在输出阶段引发推理过程，如Chainof-Thought (CoT) (Wei等，2022b)，ProgramAided Language Model（PAL）(Gao等，2023)等等（Yao等，2023a；Besta等，2023；Wang等，2023a）。相比之下，对此类问题的关注不足。

第二遍→ （第一遍 + 第二遍）

图2：LLaMA-2在GSM8K数据集上使用第二次传递时，每个令牌的注意力分布示意图。较暗的单元格表示更高的注意力。虚线上三角形内的区域表明第二次传递中的每个令牌对于第一次传递中其后续令牌有明显的关注。这表明在LLMs中重新阅读有望实现对问题的“双向”理解。

对输入阶段的理解付出了代价。事实上，在解决问题之前，理解是至关重要的第一步。然而，在生成式人工智能时代，大多数LLMs采用了仅解码的LLMs，具有单向注意力，如GPT-3（Brown等，2020）和LLaMA（Touvron等，2023b）。与具有双向注意力的编码器型语言模型相比（Devlin等，2019），单向注意力在编码问题时限制了每个令牌仅能看到先前的令牌，可能损害对问题的整体理解（Du等，2022）（图1中的顶部图）。幸运的是，许多认知科学研究表明，人类在学习和解决问题时倾向于重新阅读问题以增强理解过程（Dowhower，1987，1989；Ozek和Civelek，2006）。受此启发，我们还通过使用GSM8K数据集（Cobbe等，2021）对LLaMA2（Touvron等，2023b）进行了初步实证研究，重复提出问题两次。图2显示，LLaMA-2通过重新阅读有望实现对问题的“双向”理解，并进一步提高推理性能。

根据观察并受到人类重复阅读的策略启发，我们提出了一种简单而有效的通用推理提示策略RE2，即将问题作为输入再次阅读（请参见图1中的示意图）。类似于人类问题解决过程，主要任务是理解问题，我们将重点放在设计输入阶段的提示策略上。因此，RE2与大多数输出阶段的思维激发提示方法（如CoT，PAL等）是正交和兼容的。此外，不同于仅进行单次传递的输入处理，问题的重复使得LLMs能够将更多计算资源分配给输入编码，类似于“横向”增加神经网络的深度。因此，具有RE2的LLMs有望更深入地理解问题并提高推理性能。更有趣的是，具有RE2的LLMs在单向LLMs的背景下展现了对问题的“双向”理解潜力。这是因为第二遍遍历中的每个标记也可以关注第一遍遍历中其后续的标记（请参见图1和图2中的示意图）。

为验证RE2的有效性和普适性，我们在14个数据集和112个实验中进行了涵盖算术、常识和符号推理任务的广泛实验。结果显示，除了在普通ChatGPT上的某些情景，我们的RE2通过简单的重新阅读策略始终提高了LLM的推理性能。RE2在各种LLM中展现出多功能性，例如Text-Davinci-003、ChatGPT、LLaMA-2-13B和LLaMA-2-70B，涵盖了指令微调（IFT）和非IFT模型。我们还探讨了RE2在零射和少射任务设置中的应用，以及引发思考的提示方法和自一致设置，突显了其普适性。

2方法

2.1 推理的香草思维链（Vanilla Chain-of-Thought ）

我们首先提出了一个统一的公式，利用CoT提示来利用LLMs解决推理任务。具体而言，给定输入x和目标y，具有CoT提示的LLM p可以表示为

在这个公式中，Cx表示提示的输入。c(cot)(·)表示具有CoT提示指令的模板，例如“让我们逐步思考”。z代表理性的潜在变量，z表示自然语言中抽样的理性。因此，LLMs可以将复杂的任务拆分为更易处理的推理步骤，将每个步骤视为解决方案链的组成部分。我们将CoT作为一个基准来解决推理任务，而不会影响其通用性。除了CoT之外，我们提出的简单RE2也可以作为一个“即插即用”模块，适用于大多数其他提示方法（§2.3）。

2.2重读（RE2）能提高推理能力

灵感来源于人类重新阅读的策略，我们引入了这种策略来进行LLM推理，称为RE2，以增强输入阶段的理解。有了RE2，方程式1中的提示过程可以很容易地重新表述为：

在这个公式中，re2(·) 是输入的重新阅读操作。我们不寻求复杂的调整LLMs，而是旨在实现一个re2(x) 的一般实现，如下所示：

' {输入查询} ' 是输入查询 x 的占位符。此提示的左侧部分可以包含其他引发思考的提示。直觉上，RE2具有两个优势来增强理解过程：（1）它将更多的计算资源分配给输入，（2）它促进了对问题的“双向”理解，第一遍提供全局信息以供第二遍使用。

2.3 RE2的普适性

由于RE2的简单性和对输入阶段的强调，它可以无缝地与广泛的LLMs和算法集成，包括少样本设置、自一致性、各种引发思考的提示策略等。我们提供了RE2与其他引发思考提示策略集成的见解作为示例。

与那些专注于输出阶段的思维引发策略相比，RE2将重点转向理解输入。因此，RE2与它们具有显著的兼容性，充当“即插即用”模块。这种协同作用有潜力进一步增强LLMs的推理能力。设计用于从LLMs引发思维的特定思维引发提示τ后，方程（3）被重新写为：

在这里，τ表示超出CoT范围的各种启发式提示，例如Plan-and-Solve（Wang等，2023a），以及Program-Aided Prompt（Gao等，2023）等。我们还进行了大量实验来验证§3.4中RE2的普适性。

3 实验结果

3.1基准测试

我们评估了RE2提示在三个关键类别的推理基准上的表现。所有数据集的细节都显示在附录A中。

算术推理我们考虑以下七个算术推理基准：数学文字问题的GSM8K基准（Cobbe等，2021），具有不同结构的数学文字问题的SVAMP数据集（Patel等，2021），多样化数学文字问题的ASDiv数据集（Miao等，2020），代数文字问题的AQuA数据集（Ling等，2017），面向三年级至五年级学生的加法和减法数学问题的AddSub（Hosseini等，2014），具有多个步骤的数学问题的MultiArith数据集（Roy和Roth，2015），以及具有单一运算的基础数学文字问题的SingelEQ（Roy等，2015）数据集。

常识和符号推理对于常识推理，我们使用CSQA（Talmor等，2019年），StrategyQA（Geva等，2021年）和ARC（Clark等，2018年）。CSQA数据集包含需要各种常识知识的问题。StrategyQA数据集包含需要多步推理的问题。ARC数据集（标记为ARC-t）分为两组：一个挑战集（标记为ARCc），包含检索型和词共现算法都回答错误的问题，以及一个简单集（标记为ARC-e）。我们评估了两个符号推理任务：日期理解（Suzgun等，2023a年）和Coinflip（Wei等，2022b年）。日期理解是BigBench数据集的一个子集（Suzgun等，2023a年），这对先前的微调工作构成了挑战。Coinflip是一个关于是否解释问题的数据集。

表1：算术推理基准测试结果。∗表示Vanilla甚至优于CoT提示。常识符号LLMs方法

表2：常识和符号推理基准测试结果。∗表示Vanilla甚至优于 CoT 提示。

硬币在翻转后仍然是正面朝上或者不是基于问题中给定的步骤。

3.2 语言模型和实现

基准提示方法。在我们的实现中，我们严格评估了我们的RE2模型在两种基准提示方法上的表现：原始方法和CoT方法。原始方法与(Wei等，2022b; Kojima等，2022)中概述的标准提示方法相一致，其中不使用特定提示来引导LLMs的思想。相反，CoT方法通过逐步的思考过程引导模型。RE2提示。我们将我们的RE2策略纳入这些基准方法中以评估其影响，标记为原始+RE2和CoT+RE2。为避免在少样本情况下演示引入的随机性影响，我们主要在零样本情况下评估我们的方法，遵循(Chen等，2023; Wang等，2023a; Du等，2023)的方法。此外，针对不同任务，我们在提示中设计了答案格式说明，以规范最终答案的结构，促进精确答案提取。有关基准提示、RE2提示和答案格式说明的详细信息可以在论文的附录B中找到。

实现。我们的解码策略使用使用温度设置为0的贪婪解码，从而导致确定性输出。对于这些实验，我们采用了两个强大的骨干模型：ChatGPT（gpt-3.5-turbo-0613）（OpenAI，2022年）和davinci-003（text-davinci-003），涵盖所有提示方法，包括Vanilla、CoT、Vanilla+RE2和CoT+RE2。

3.3 评估结果

表1展示了算术推理数据集的结果，表2展示了常识推理和符号推理的结果。在几乎所有场景中，具有RE2的LLMs在LLMs（davinci-003和ChatGPT）和提示方法（Vanilla和CoT）上都取得了一致的改进。具体来说，Vanilla+RE2的davinci-003在算术、常识和符号任务中分别表现出平均改进3.81、2.51和1.85。使用CoT，davinci-003生成中间推理步骤，显著增强了LLMs的推理性能。通过应用RE2，具有CoT+RE2的davinci-003在相同类别上显示出进一步改进，分别平均获得2.22、1.23和5.25的增益。这些结果表明，RE2可以使LLMs直接生成答案，并提高CoT的性能，从而导致正确的答案。

应用于ChatGPT时，RE2表现一致。

图3：GSM基准测试中阅读次数的评估结果。

在大多数数据集上，除了在一些数据集上略有性能下降，例如使用Vanilla+RE2时在AQUA和MultiArith数据集上性能略有下降。

这个异常可能是由于ChatGPT在指导微调（IFT）期间暴露在这些包含CoT输出的数据集中（Chen等人，2023）。在这类数据集上，即使采用Vanilla，ChatGPT仍会产生类似CoT的输出（请参见附录E中的示例），甚至表现优于采用CoT的ChatGPT（如表1和表2中的∗结果所示）。 Chen等人（2023）获得了类似的实验结果，并建议这是因为ChatGPT可能在未明确提示的情况下接触到了这些包含CoT解释的任务数据集。因此，额外的明确指导，如CoT或RE2，可能会扰乱ChatGPT中学习到的模式，可能导致性能下降。尽管如此，在一些数据集中，如SVAMP，ASDIV，CSQA和Date，RE2仍然能够改进基线的Vanilla提示。此外，在通常情况下CoT提示超过Vanilla提示的数据集中，如GSM，StrategyQA和Coin，RE2显着增强了Vanilla提示（在StrategyQA上 ↑ 4.63，在Coin数据集上 ↑ 5.20）。总体而言，我们的RE2方法在ChatGPT的71%实验中仍然取得改进。实验结果的更多示例可在附录E中找到。

3.4讨论

阅读问题的时代我们深入探讨阅读问题的次数对推理表现的影响。图3展示了两种不同LLM的表现随着各种阅读问题次数的演变。在所有模型中出现了一个主导模式：表现会随着重新阅读次数增加而提高，直到重新阅读次数达到2或3次，之后开始下降。

表3：在RE2下与CoT之外的一些引发思考提示的评估结果。

进一步增加问题重复阅读的时间。当多次阅读问题时表现较差的潜在原因有两个方面：

i)过多重复问题可能会导致语言模型倾向于重复问题而不是生成答案， ii) 重复问题会显著增加语言模型在我们的推理和预训练/对齐之间的不一致性（直观上，在学习语料库中，我们通常会重复一个问题两次以强调关键部分，而不是更多）。值得注意的是，阅读问题两次往往是适应我们实验中大多数情况的最佳选择，这就是为什么我们在论文中将这种做法称为“重新阅读”。

与诱发思考提示策略的兼容性与以往试图在LLM输出中引发思考的方法相比，我们的RE2强调对输入的理解。因此，我们很想探索RE2是否与除CoT之外的各种引发思考的提示策略有效。为了进行调查，我们将RE2应用于另外两种最近引入的提示方法，即Plan-and-Solve（PS）（Wang等，2023a）和ProgramAided语言模型（PAL）（Gao等，2023）。

前一种模型制定了一个计划，将整个任务分解为较小的子任务，然后根据计划执行这些子任务；而后一种模型则生成程序作为中间推理步骤。我们通过简单地修改输入，通过向问题重复来直接将我们的RE2应用于这两种方法。表3展示了GSM基准测试的评估结果。我们的观察显示了一致的趋势，类似于链式思维提示所观察到的。这些结果表明，我们的RE2机制的有效性通常可以延伸到各种提示方法中。

表4：在少样本条件下算术推理基准测试的评估结果。

表5：LLAMA-2在算术推理基准测试上的评估结果。

与Few-Shot Prompting的兼容性值得注意的是，我们提出的重读机制与Few-Shot Prompting兼容。为了证明这种兼容性，我们使用davinci-003模型在算术推理任务上进行了实验，采用了Vanilla和CoT提示方法。所使用的Few-Shot提示策略和示例与（Wei等人，2022b）中呈现的相一致。对于Vanilla+RE2和CoT+RE2方法，我们也将重读机制应用于示例中。这些实验的结果如下。

表4. 我们可以观察到，重新阅读机制的引入持续提升了两种提示方法的性能，反映了我们在零-shot设置中的发现。

在我们的主要实验中，我们使用了经过IFT 训练的 ChatGPT 和 davinci003 模型。这些模型与类人行为一致，更适合有效地遵循指令。此外，它们在训练过程中可能接触到了包含 CoT 提示的数据集，使得“重新阅读”机制在召回解释方面潜在地更有益。为了评估我们方法的更广泛适用性并消除任何与 IFT 相关的影响，我们在非 IFT 预训练模型上进行了实验：Llama-2-13B 和 Llama-2-70B（Touvron 等，2023b）。Llama-2 是一个在未经过 IFT 或 RLHF 微调的公开可用数据上预训练的开源模型。我们在零样本设置下评估了 Llama-2 在算术推理任务上的表现，遵循（Kojima 等，2022）。结果为：

表6：在GSM基准测试上重新阅读自我一致性的评估结果。

表5中呈现的结果清楚地表明，重新阅读机制在应用于Llama-2模型时始终提高了香草方法和CoT提示方法在大多数任务中的性能。这一观察强调了我们方法的普适性，并消除了对在训练过程中可能发生的来自IFT的数据泄漏的担忧。这也强调了RE2的多功能性，它可以有效地应用于各种模型规模和类型，无论它们是否经过IFT训练或者是非IFT LLM。

自洽性与兼容性存在的研究表明，通过采用自洽性方法可以增强思维链触发方法，该方法涉及从多个样本生成中聚合大多数最终答案。我们也对利用这种方法进一步增强所提出的重读机制的潜力感到好奇。因此，我们进行实验，测试在解码时将RE2与自洽性方法在GSM基准上集成，温度为0.7（表6）。我们的发现表明，自洽性显著增强。

图4：左图：模型性能与问题复杂度之间的关系。X轴表示问题的复杂度，Y轴表示频率。灰色直方图表示每个复杂度的总案例数。右图：生成和输入问题之间的n-gram召回率。我们将问题和生成物分别作为参考和假设。

自提示方法的表现。尽管自一致性汇总了多个答案，我们的重读机制仍有助于在大多数情况下的改善，表明它与自一致性方法的兼容性。

表7：不同的再阅读指导结果。

4相关工作

使用大型语言模型进行推理。LLMs代表着人工智能通往人工通用智能（AGI）的重要里程碑（OpenAI，2023；Touvron等，2023b）。推理能力对通往AGI的道路尤为关键，人工智能需要像人类一样行动或思考（Qiao等，2023；Huang和Chang，2023）。在LLMs的文献中，通过自然语言进行交互执行推理任务在评估LLM中扮演着重要角色，学术界和工业界一直致力于这方面的努力（Wei等，2022a；Suzgun等，2023b；Turpin等，2023）。在原则上，大多数关于大型语言模型推理的工作都可以归入“推理链”范式中（Wei等，2022b；Kojima等，2022），该范式通过明确生成中间步骤帮助LLMs完成复杂的推理任务。因此，大部分努力都集中在通过以下方面改进基本原理：i）“链”的结构，例如树（Yao等，2023a），图（Yao等，2023b）；ii）链的模态，例如程序（Gao等，2023）；iii）链的可靠性，例如自洽性（Wang等，2023c），忠实性（Lyu等，2023），基于检索的验证（He等，2023）；以及iv）链的分解，例如由少到多（Zhou等，2023），分解（Radhakrishnan等，2023），计划解决（Wang等，2023a）。相比之下，我们针对LLMs的简单重读策略与这些改进相反，通过在中间步骤和查询本身之间进行权衡。此外，我们的重读策略与许多先前的工作是互补的，可以防止答案过多地来源于推理链而忽视原始查询。

在文本理解中的再阅读策略。在深度学习中，执行文本理解任务的成功（Song等，2018年；Luo等，2019a年；Yang等，2019年；Lei等，2019年）取决于人类阅读策略的启发，例如，预读、再阅读和后阅读（Saricoban，2002年；Toprak和ALMACIOGLU˘，2009年；Pressley和Afflerbach，2012年；Ozek和Civelek，2006年；Dowhower，1989年）。具体来说，许多有效的算法都是围绕再阅读的概念构建的。尽管深度架构，从多层双向LSTM（Huang等，2015年）到Transformer编码器（Vaswani等，2017年），都有提供一种形式的“再阅读”的机制，但简单地处理一次输入可能不足以理解或生成复杂的输出这一概念一直存在。最初，（Sha等，2016年）和（Sha等，2017年）发现重复阅读机制确实提高了一些任务的性能，例如，情感分析、语义关系分类和事件提取。然后，（Liu和Li，2016年）提出了模仿重复阅读策略并向神经网络提供多级注意力的方法，在识别隐含的话语关系方面证明是有效的。接着，（Zhu等，2018年）提出了一种多次注视机制，建模阅读习惯，可惠及各种任务。最近，（Luo等，2019b）采用网络对段落要旨进行编码以进行粗读，同时采用决策策略进行细读，从而可以提高提取式摘要。因此，将再阅读策略引入LLMs是自然而然的，因为LLMs的Transformer解码器架构，具有单向注意力机制，限制了隐式再阅读能力。

知识回忆。从信息获取的角度来看，促使LLMs可以被视为一种通过参数化方式的“知识回忆”，其中提示可以被视为检索查询。与传统的非参数化检索 - 向量数据库（Karpukhin等，2020年；Izacard等，2022年）相比，LLM作为神经知识模型（Bosselut等，2019年；AlKhamissi等，2022年）可以轻松进行大规模知识覆盖的泛化，有助于其在广泛应用中的有效性。在CoT推理的背景下，（Chen等，2023年）推测LLM在训练过程中可以接触到某些CoT，并通过知识回忆轻松完成推理。因此，将基于术语的检索领域中基本但普遍的查询增强技术（Dai和Callan，2019年），即在增强部分中多次重复原始查询的方法（Wang等，2023b；Shen等，2023年）调整为促使LLMs。

结论和未来工作

本文介绍了RE2，一种简单而有效的LLM推理提示方法，通过“重新阅读”问题来提高性能。通过将焦点转移到输入阶段，RE2独立于其他引发思考的提示方法运行。此外，它显示出在仅使用解码器的LLM中促进双向理解问题的潜力。我们的全面实验证明覆盖了各种推理基准，不同类型的LLM，各种任务设置以及与其他提示方法的兼容性评估，验证了RE2的功效和多功能性。我们的研究结果鼓励研究社区优先深入理解输入问题，从而补充现有的引发思考的提示策略。未来的努力将旨在探索其在超出推理范围的其他情境中的多功能性，包括多轮对话和多模态推理应用。

限制

在本文中，我们介绍了一种简单而有效的提示方法，用于增强LLMs中的推理能力，并进行了大量实验证实其有效性。尽管我们已经尽力，但仍然可能存在一些研究中尚存的限制。我们的调查主要围绕着通过大量实验证实RE2的经验性研究，类似于提示研究中的大多数工作（Zheng等，2023年；Yin等，2023年；Gao等，2023年）。未来的努力将包括更多的理论分析，以提供坚实的基础。另外，RE2在一定程度上增加了输入长度，可能导致在推理过程中对更长问题的效率略微降低。此外，我们的论文专注于RE2在推理领域内的影响。未来工作将扩展到其他上下文，如多轮对话和多模态推理。

道德

我们在七个数学推理基准上进行了实验，包括GSM8K（Cobbe等人，2021年），SVAMP（Patel等人，2021年），ASDiv（Miao等人，2020年），AQuA（Ling等人，2017年），AddSub（Hosseini等人，2014年），MultiArith（Roy和Roth，2015年），SingelEQ（Roy等人）。

2015年），三个常识推理基准（CSQA（Talmor等，2019年），StrategyQA（Geva等，2021年）和ARC（Clark等，2018年）），以及两个符号基准（Date Understanding（Suzgun等，2023a）和Coinflip（Wei等，2022b））。其中，GSM8K和SVAMP数据集使用MIT许可下的代码，而AQuA，StrategyQA，Date Understanding，Coinflip使用Apache-2.0许可下的代码，ARC使用CC-BY-SA-4.0许可下的代码。其余数据集的许可未指定。

提议的提示不涉及收集或利用其他个人信息。有关我们实验中使用的提示的详细信息，请参见附录§B。此外，确保本研究中使用的提示不会对他人的安全或福祉构成威胁。

参考文献

Badr AlKhamissi, Millicent Li, Asli Celikyilmaz, Mona T. Diab和Marjan Ghazvininejad. 2022年。一个关于语言模型作为知识库的综述。 CoRR，abs/2204.06031。

Konstantine Arkoudas。2023年。Gpt-4 无法推理。arXiv 预印本 arXiv:2308.03762。

Maciej Besta, Nils Blach, Ales Kubicek, Robert Gerstenberger, Lukas Gianinazzi, Joanna Gajda, Tomasz Lehmann, Michal Podstawski, Hubert Niewiadomski, Piotr Nyczyk等人。2023年。思维图：用大型语言模型解决复杂问题。arXiv预印本arXiv:2308.09687。

Andrew Blair-Stanek, Nils Holzenberger, and Benjamin Van Durme. 2023. Can gpt-3 perform statutory reasoning? arXiv preprint arXiv:2302.06100.安德鲁·布莱尔-斯坦克（Andrew Blair-Stanek）、尼尔斯·霍尔岑贝格（Nils Holzenberger）和本杰明·范·杜尔梅（Benjamin Van Durme）。2023年。gpt-3能够进行法规推理吗？arXiv预印本 arXiv:2302.06100。

Antoine Bosselut, Hannah Rashkin, Maarten Sap, Chaitanya Malaviya, Asli Celikyilmaz, and Yejin Choi. 2019. COMET: commonsense transformers for automatic knowledge graph construction. In Proceedings of the 57th Conference of the Association for Computational Linguistics, ACL 2019, Florence, Italy, July 28- August 2, 2019, Volume 1: Long Papers, pages 4762–4779. Association for Computational Linguistics.

汤姆·布朗，本杰明·曼恩，尼克·赖德，梅兰妮·苏比亚，贾里德·D·卡普兰，帕富拉·达里瓦尔，阿文德尼拉卡坦，普拉纳夫夏姆，吉里什·萨斯特，阿曼达Askell, Sandhini Agarwal, Ariel Herbert-Voss,格蕾琴·克鲁格，汤姆·亨尼根，里万·钱尔德 Aditya Ramesh, Daniel Ziegler, Jeffrey Wu, Clemens Winter, Chris Hesse, Mark Chen, Eric Sigler, Mateusz Litwin, Scott Gray, Benjamin Chess, Jack Clark, Christopher Berner, Sam McCandlish, Alec Radford, Ilya Sutskever, and Dario Amodei. 2020. Language models are few-shot learners. In Advances in Neural Information Processing Systems. 中文: Aditya Ramesh, Daniel Ziegler, Jeffrey Wu, Clemens Winter, Chris Hesse, Mark Chen, Eric Sigler, Mateusz Litwin, Scott Gray, Benjamin Chess, Jack Clark, Christopher Berner, Sam McCandlish, Alec Radford, Ilya Sutskever和Dario Amodei (2020) 。语言模型是少数据学习者。在《神经信息处理系统进展》中。

Jiuhai Chen, Lichang Chen, Heng Huang, and Tianyi Zhou. 2023. When do you need chain-of-thought prompting for chatgpt? CoRR, abs/2304.03262.九海·陈，立昌·陈，恒·黄和田奕·周。2023年。在何时需要ChatGPT的链式思维提示？CoRR，abs/2304.03262。

彼得·克拉克、艾萨克·科威、奥伦·艾茨尼、图沙尔·科特Ashish Sabharwal, Carissa Schoenick, and Oyvind Tafjord. 2018. Think you have solved question answering? try arc, the ai2 reasoning challenge. ArXiv, abs/1803.05457.

Karl Cobbe，Vineet Kosaraju，Mohammad Bavarian。Mark Chen, Heewoo Jun, Lukasz Kaiser, Matthias Plappert, Jerry Tworek, Jacob Hilton, Reiichiro Nakano, Christopher Hesse, 和 John Schulman. 2021. Training verifiers to solve math word problems.

Zhuyun Dai和Jamie Callan。2019年。用于第一阶段检索的上下文感知句子/段落术语重要性估计。CoRR，abs/1910.10687。

Jacob Devlin, Ming-Wei Chang, Kenton Lee,和 Kristina Toutanova. 2019. BERT: 深度双向transformers的预训练用于语言理解. 在2019年北美计算语言学协会会议论文集:人类语言技术，NAACL-HLT 2019，明尼阿波利斯，明尼苏达州，美国，2019年6月2-7日，第1卷(长篇和短篇论文)，第4171-4186页。计算语言协会。语言学。

Sarah L Dowhower. 1989. Repeated reading: Research into practice. The Reading Teacher, 42(7):502–507.

Sarah Lynn Dowhower. 1987. Effects of repeated reading on second-grade transitional readers’ fluency and comprehension. Reading Research Quarterly, pages 389–406.

Yilun Du, Shuang Li, Antonio Torralba, Joshua B Tenenbaum和Igor Mordatch。2023年。通过多智能体辩论提高语言模型的事实性和推理能力。arXiv预印本arXiv:2305.14325。

郑晓杜，钰洁钱，晓刘，明丁，杰宗邱，智林杨，以及杰唐。2022年。GLM：具有自回归填充空白的通用语言模型预训练。在第60届计算机语言学年会论文集（卷1：长篇论文）中，ACL 2022年，爱尔兰都柏林，2022年5月22-27日，第320-335页。计算机语言学协会。

姚夫，彭浩，阿希什·萨巴哈瓦尔，彼得·克拉克和图沙尔·科特。2022年。基于复杂性的提示用于多步推理。arXiv预印本arXiv:2210.00720。

Luyu Gao, Aman Madaan, Shuyan Zhou, Uri Alon, Pengfei Liu, Yiming Yang, Jamie Callan,和 Graham Neubig. 2023年。PAL：程序辅助语言模型。在2023年7月23-29日举行的机器学习国际会议ICML 2023中，位于檀香山。夏威夷，美国，机器学习研究论文集第202卷，第10764至10799页。PMLR。

Mor Geva, Daniel Khashabi, Elad Segal, Tushar Khot, Dan Roth和Jonathan Berant. 2021. Aristotle有用过笔记本电脑吗？一个具有隐含推理策略的问答基准。计算语言学协会交易。

杭锋和，张宏明，丹·罗斯。2023年。重新思考检索：忠实的大型语言模型推理。CoRR，abs/2301.00303。

Mohammad Javad Hosseini, Hannaneh Hajishirzi, Oren Etzioni和Nate Kushman. 2014. 学习使用动词分类解决算术单词问题。在2014年自然语言处理实证方法会议(EMNLP)论文集中。

Jie Huang和Kevin Chen-Chuan Chang. 2023. 面向大型语言模型的推理：一项调查。在计算语言协会的研究中发现。语言学：ACL 2023，加拿大多伦多，2023年7月9日至14日，页码1049–1065。计算语言学协会。

Zhiheng Huang，Wei Xu和Kai Yu。2015。双向LSTM-CRF模型用于序列标注。CoRR，abs/1508.01991。

Gautier Izacard, Mathilde Caron, Lucas Hosseini, Sebastian Riedel, Piotr Bojanowski, Armand Joulin, and Edouard Grave. 2022. Unsupervised dense information retrieval with contrastive learning. Trans. Mach. Learn. Res., 2022.非监督式密集信息检索与对比学习。

Vladimir Karpukhin, Barlas Oguz, Sewon Min, Patrick S. H. Lewis, Ledell Wu, Sergey Edunov, Danqi Chen, and Wen-tau Yih. 2020.密集通道检索用于开放域问答。在2020年度自然语言处理实证方法会议论文集中，EMNLP 2020，线上，2020年11月16日至20日，第6769-6781页。计算语言学协会。

Takeshi Kojima, Shixiang Shane Gu, Machel Reid, Yutaka Matsuo, and Yusuke Iwasawa. 2022. Large language models are zero-shot reasoners. In NeurIPS.大语言模型是零-shot 推理者。在 NeurIPS。

Zeyang Lei, Yujiu Yang, Min Yang, Wei Zhao, Jun Guo, and Yi Liu. 2019. A human-like semantic cognition network for aspect-level sentiment classification. In The Thirty-Third AAAI Conference on Artificial李泽洋，杨余九，杨敏，赵伟，郭军，刘毅。2019年。面向方面级情感分类的人类语义认知网络。在第三十三届AAAI人工智能大会上 Intelligence, AAAI 2019, 檀香山, 夏威夷, 美国, 2019年1月27日至2月1日, 第6650-6657页. AAAI出版社.

王凌，丹尼·永夏塔玛，克里斯·戴尔和菲尔·布伦索姆。2017年。通过生成理由进行程序归纳：学习解决和解释代数单词问题。在计算语言学协会第55届年会论文集中（第1卷：长文）的论文中。

杨刘和李素建。2016年。通过重复阅读识别隐式话语关系：具有多层注意力的神经网络。在2016年自然语言处理的经验方法会议论文集中，EMNLP 2016，美国德克萨斯州奥斯汀，2016年11月1-4日，第1224-1233页。计算语言学协会。

凌洛，项傲，言颂，金曜黎，小鹏杨青和董宇。2019a。基于义元的无监督神经方面抽取。在第二十八届国际人工智能联合会议论文集中，IJCAI 2019，中国澳门，2019年8月10-16日，第5123-5129页。ijcai.org。

Ling Luo, Xiang Ao, Yan Song, Feiyang Pan, Min Yang,和 Qing He. 2019b. 类似于人类阅读的摘要提取启发. 在2019年度自然语言处理实证方法会议和第9届国际自然语言处理联合会议论文集（EMNLP-IJCNLP 2019）中，香港，中国，2019年11月3日至7日，第3031-3041页。计算语言学协会。

吕庆，Shreya Havaldar，Adam Stein，张力 Delip Rao, Eric Wong, Marianna Apidianaki, 和 Chris Callison-Burch。2023年。Faithful chain-of-thought reasoning。CoRR，abs/2301.13379

沈云妙，赵春良，苏克毅 2020年。用于评估和开发英语数学应用题解决器的多样化语料库。在计算语言学协会第58届年会上的论文集。

OpenAI. 2022. ChatGPT：优化语言模型用于对话。

OpenAI。2023年。Gpt-4技术报告。arXiv，页码2303-08774。

Yesim Ozek和Muharrem Civelek. 2006年。《关于ELT学生运用认知阅读策略的研究》。《亚洲EFL杂志》，14(1)：1-26。

Arkil Patel, Satwik Bhattamishra, and Navin Goyal. 2021. Are NLP models really able to solve simple math word problems? In Proceedings of the 2021 Conference of the North American Chapter of the计算语言学协会：人类语言技术，第2080-2094页，在线。计算语言学协会。

迈克尔·普雷斯利（Michael Pressley）和彼得·阿弗勒巴赫（Peter Afflerbach）。2012年。《阅读的口头协议：建设性响应性阅读的性质》（Verbal protocols of reading: The nature of constructively responsive reading）。Routledge。

乔硕斐，欧一鑫，张宁宇，陈翔姚云志，邓淑敏，谭传奇，黄飞和陈华军。2023年。使用语言模型提示进行推理：一项调查。在计算语言学协会第61届年会论文集（Volume 1: 长文）中，ACL 2023，加拿大多伦多，2023年7月9日至14日，第5368-5393页。计算语言学协会。

安什·拉达克里斯南，卡琳娜·阮，安娜·陈，卡罗尔·陈，卡森·丹尼森，丹尼·埃尔南德斯埃辛·杜姆斯，埃文·胡宾格，杰克逊·科尔尼恩，卡米勒·卢科舒特，牛顿·成，尼古拉斯·约瑟夫尼古拉斯·什菲尔，奥利弗·劳施，萨姆·麦坎迪什谢尔·艾尔·肖克，泰梅拉·兰纳姆，蒂姆·麦克斯韦 Venkatesa Chandrasekaran, Zac Hatfield-Dodds,Jared Kaplan, Jan Brauner, Samuel R. Bowman, and Ethan Perez. 2023. Question decomposition improves the faithfulness of model-generated reasoning. CoRR, abs/2307.11768.

Subhro Roy和 Dan Roth。2015年。解决一般的算术问题。在2015年自然语言处理实证方法会议论文集中。

Subhro Roy, Tim Vieira, and Dan Roth. 2015. Reasoning about Quantities in Natural Language. Transactions of the Association for Computational Linguistics.关于自然语言中的数量推理。计算语言学协会交易。

阿里夫·萨里科班（Arif Saricoban）。2002年。通过三阶段方法探究成功读者的阅读策略。《阅读矩阵》（The Reading Matrix），2（3）。

雷莎，常宝宝，隋芝芳，李苏健。2016年。阅读与思考：重新阅读LSTM单元用于文本蕴涵识别。在COLING 2016，第26届国际计算语言学会议上，会议论文集：技术论文，2016年12月11-16日，日本大阪，页码2870-2879。ACL。

雷沙，冯倩和随志芳。2017年。重复阅读是否有益于自然语言理解？在自然语言处理和中文计算 - 第六届CCF国际会议，NLPCC 2017年，中国大连，2017年11月8日至12日计算机科学讲座笔记第10619卷，页码366-379。斯普林格出版社。

Tao Shen, Guodong Long, Xiubo Geng, Chongyang Tao, Tianyi Zhou, and Daxin Jiang. 2023. Large language models are strong zero-shot retriever. CoRR, abs/2304.14233.深田涛，龚国栋，耿秀波，陶崇阳，周天一和蒋大新。2023年。大语言模型是强零-shot 检索器。CoRR, abs/2304.14233。

Yan Song, Shuming Shi, and Jing Li. 2018. Joint learning embeddings for chinese words and their components via ladder structured networks. In Proceedings of the Twenty-Seventh International Joint Conference on Artificial Intelligence, IJCAI 2018, July.13-19，2018年，瑞典斯德哥尔摩，页码4375-4381。ijcai.org。

Mirac Suzgun, Nathan Scales, Nathanael Schärli, Sebastian Gehrmann, Yi Tay, Hyung Won Chung, Aakanksha Chowdhery, Quoc V. Le, Ed Chi, Denny Zhou, and Jason Wei. 2023a. Challenging big-bench tasks and whether chain-of-thought can solve them. In Findings of the Association for ComputationalMirac Suzgun, Nathan Scales, Nathanael Schärli, Sebastian Gehrmann, Yi Tay, Hyung Won Chung, Aakanksha Chowdhery, Quoc V. Le, Ed Chi, Denny Zhou和Jason Wei。（2023年）。挑战大型基准任务及连贯思维是否能解决它们。在计算机协会研究结果中。

语言学：ACL 2023，加拿大多伦多，7月9日至14日。2023，第13003–13051页。计算机语言学协会。

Mirac Suzgun, Nathan Scales, Nathanael Schärli, Sebastian Gehrmann, Yi Tay, Hyung Won Chung, Aakanksha Chowdhery, Quoc V. Le, Ed Chi, Denny Zhou, and Jason Wei. 2023b. Challenging big-bench tasks and whether chain-of-thought can solve them. In Findings of the Association for Computational2023b年，Mirac Suzgun，Nathan Scales，Nathanael Schärli，Sebastian Gehrmann，Yi Tay，Hyung Won Chung，Aakanksha Chowdhery，Quoc V. Le，Ed Chi，Denny Zhou和Jason Wei。挑战性的大型台案以及链式思维是否能解决它们。在计算机协会的发现中。语言学：ACL 2023，加拿大多伦多，7月9日至14日2023，第13003–13051页。计算机语言学协会。

Alon Talmor, Jonathan Herzig, Nicholas Lourie和Jonathan Berant. 2019. CommonsenseQA: 一个针对常识知识的问答挑战。在2019年北美计算语言学协会年会论文集中的第1卷（长篇和短篇论文）中。

Elif Toprak和Gamze ALMACIOGLU. 2009. Three˘ reading phases and their applications in the teaching of english as a foreign language in reading classes with young learners. Journal of language and Linguistic Studies, 5(1).

雨果·图夫隆、蒂博·拉弗里尔、戈蒂耶·伊扎卡德、泽维尔Llama: 开放且高效的基础语言模型雨果·图弗隆（Hugo Touvron），路易斯·马丁（Louis Martin），凯文·斯通（Kevin Stone），彼得·阿尔伯特（Peter Albert），阿姆雅德·阿尔玛哈伊（Amjad Almahairi），亚斯明·巴巴伊（Yasmine Babaei），尼古拉伊（Nikolay）

Bashlykov, Soumya Batra, Prajjwal Bhargava, Shruti Bhosale等人。2023年。Llama 2: 开放基础和微调的聊天模型。arXiv预印本arXiv:2307.09288。

迈尔斯·特普林（Miles Turpin）、朱利安·迈克尔（Julian Michael）、伊桑·佩雷斯（Ethan Perez）、塞缪尔·鲍曼（Samuel R. Bowman）。2023年。语言模型并不总是说出他们所想的：在连续思维提示中的不忠实解释。CoRR，abs/2305.04388。

Ashish Vaswani, Noam Shazeer, Niki Parmar, Jakob Uszkoreit, Llion Jones, Aidan N. Gomez, LukaszKaiser和Illia Polosukhin. 2017. 注意力机制就是你所需要的。在2017年神经信息处理系统30年会上，2017年12月4日至9日，美国加利福尼亚州长滩，第5998-6008页。

雷旺，徐婉宇，兰一怀，胡志强，兰云石，李嘉伟，林意平。2023年。计划与解决提示：通过大型语言模型改进零射链式思维推理。arXiv预印本 arXiv:2305.04091。

梁旺，南洋，韦富茹。2023b Query2doc：使用大型语言模型进行查询扩展。CoRR，abs/2303.07678.

王雪之，韦杰森，戴尔·舒尔曼斯，黎育国，吉艾德，沙兰·纳兰，阿坎夏·乔德里，周登尼。2023年。自一致性改进语言模型的思维链推理。在第十一届国际学习表示会议ICLR 2023中，2023年5月1日至5日，卢旺达基加利。OpenReview.net。

Jason Wei, Yi Tay, Rishi Bommasani, Colin Raffel, Barret Zoph, Sebastian Borgeaud, Dani Yogatama, Maarten Bosma, Denny Zhou, Donald Metzler, Ed H.

Chi, Tatsunori Hashimoto, Oriol Vinyals, Percy Liang, Jeff Dean, and William Fedus. 2022a. Emergent abilities of large language models. Trans. Mach. Learn. Res., 2022.2022年，Chi、Tatsunori Hashimoto、Oriol Vinyals、Percy Liang、Jeff Dean和William Fedus。大型语言模型的新兴能力。机器学习研究传递，2022年。

Jason Wei, Xuezhi Wang, Dale Schuurmans, Maarten Bosma, Brian Ichter, Fei Xia, Ed H. Chi, Quoc V. Le, and Denny Zhou. 2022b. Chain-of-thought prompting elicits reasoning in large language models. In NeurIPS.李彦，王雪智，戴尔·舒尔曼斯，马腾·博斯马，布赖恩·伊奇特，夏菲，吉艾德·齐，乐阁·爱，则，周丹尼等。2022，链式思维提示在大型语言模型中引发推理。在NeurIPS中。

Min Yang, Qiang Qu, Wenting Tu, Ying Shen, Zhou Zhao和 Xiaojun Chen. 2019. 探索人类化的阅读策略用于抽象文本摘要。在第三十三届AAAI人工智能大会上，AAAI 2019，美国夏威夷檀香山，2019年1月27日至2月1日，第7362-7369页。AAAI出版社。

尚禹姚，典宇，杰弗里赵，伊扎克沙弗兰 Thomas L. Griffiths, Yuan Cao, 和 Karthik Narasimhan. 2023a. 思维之树：利用大型语言模型进行有意识的问题解决。CoRR, abs/2305.10601.

姚姚，李祖超，赵海. 2023年。超越思维链条，大型语言模型中有效的思维图推理。 CoRR，abs/2305.16582。

张越尹，孙秋实，常成，郭齐鹏，戴君齐，黄炫靖和邱熄鹏。2023年。思想交流：通过跨模型通信增强大型语言模型的能力。在第2023届自然语言处理经验方法会议论文集中，第15135-15153页，新加坡。计算语言学协会。

Chuanyang Zheng, Zhengying Liu, Enze Xie, Zhenguo Li, and Yu Li. 2023. Progressive-hint prompting improves reasoning in large language models. CoRR, abs/2304.09797.

丹尼·周（Denny Zhou）、纳撒尼尔·夏利（Nathanael Schärli）、侯乐（Le Hou）、魏杰森（Jason Wei）、内森·斯凯尔斯（Nathan Scales）、王学智（Xuezhi Wang）、戴尔·舒尔曼斯（Dale Schuurmans）、崔克莱尔（Claire Cui）、奥利维尔·布斯凯（Olivier Bousquet）、雷·奎克·勒（Quoc V. Le）和艾德·H·齐（Ed H. Chi）。2023年。最少到最多提示使大型语言模型具备复杂推理能力。在第十一届国际学习表示会议ICLR 2023中，2023年5月1日至5日，卢旺达基加利。OpenReview.net。

Pengcheng Zhu, Yujiu Yang, Wenqiang Gao, and Yi Liu. 2018. Multi-glance reading model for text understanding. In Proceedings of the Eight Workshop on Cognitive Aspects of Computational Language Learning and Processing, pages 27–35, Melbourne. Association for Computational Linguistics.

A数据集

表8呈现了我们考虑的推理基准的统计数据和示例。

B具体提示方法

详细的有关各种提示信息的内容显示在表9和表10中。答案格式的说明可在表11中找到。

C注意力分析

图5：带有和不带有RE2的注意力可视化。

(a) CoT提示：问题只有一次通过。(b) CoT+RE2重新阅读问题，包括第一次和第二次通过。矩阵的行代表查询标记，列代表关键标记。

为了深入了解RE2在推理过程中如何重塑注意力，我们通过计算Llama-2中所有头和层中的平均注意力权重来可视化注意力分布。结果显示在图5中，揭示了两个关键发现：（1）在“第二次遍历”块中关注“第一次遍历”如CoT+RE2所示（b），我们观察到明确的注意力位于上三角区域。这一观察表明，第二个问题中的标记可以聚焦于第一个问题对应位置后面的标记。这样，RE2实现了对问题的“双向”理解。值得注意的是，包含RE2后，生成过程在问题标记上维持更高的注意力权重。通过计算在生成过程中分配给问题标记的注意力权重比例，我们发现利用RE2后该比例从0.32增加到0.40。这一发现表明，重读机制增强了模型在推理过程中对问题的关注。

D案例研究

我们还进行了一个案例研究，以展示我们提出的重读提示的有效性，而非思维链。我们从GSM中选择了两个例子，ChatGPT生成的结果列在表12-13中。很明显，我们的方法能够更好地将问题中的证据与相应的解释提示对齐。我们可以观察到，CoT+RE2倾向于在生成解释之前突出问题中的重要证据，例如，表12中的“早上，她喂了15杯饲料，下午又喂了25杯。因此…”和表13中的“奖金相当于半个月的工资，…”。这一观察结果也与图4中的正确图相一致。

E更多案例

表14-18提供了由ChatGPT与CoT和CoT+RE2生成的更多示例。我们还在表19-22中提供了几个由davinci-003和ChatGPT在Vanilla提示（例如没有指令）中生成的示例。它们表明，使用Vanilla的ChatGPT直接生成了Coin的答案。

Filp和Date Understanding数据集（表1920），但仍在其他一些数据集（表21-22）中生成CoT输出。

表8：推理基准的详细信息。数学：算术推理。CS：常识推理。Sym.：

符号推理。

表9：Vanilla，Vanilla+RE2，CoT，CoT+RE2，PS和PS+RE2的特定提示。

表格10：PAL和PAL+RE2的具体提示。

表11：每个任务中特定的答案格式说明。

每天，Wendi给她的每只鸡喂三杯混合鸡饲料，包括种子、蠕虫和蔬菜，以帮助保持它们的健康。她把鸡饲料分成三餐给鸡吃。早晨，她给鸡群15杯饲料。下午，她再给鸡群25杯饲料。如果 Wendi 的鸡群有20只，她需要在一天的最后一餐中给鸡多少杯饲料？（答案：20）

CoT

Output:Input:

Q:每天，Wendi 每只鸡喂食三杯混合鸡饲料，包括种子、蛴螬和蔬菜，以帮助保持它们的健康。她将饲料分成三顿喂给鸡。早上，她给她的一群鸡15杯饲料。下午，她再喂鸡25杯饲料。如果 Wendi 的鸡群有20只，她需要在一天的最后一顿饭中给鸡多少杯饲料？

你的最终答案应该是一个单独的数字，格式为答案，在你的回答结尾。答案：一个数字。

A:让我们逐步思考。输出：

首先，让我们计算早上温迪给她的鸡喂多少饲料。她有20只鸡，每只鸡给予3杯饲料，所以总共，早上她给它们60杯饲料。

接下来，让我们来计算Wendi下午给她的鸡喂多少饲料。同样，她有20只鸡，每只鸡给予3杯饲料，总共在下午给它们喂了20 x 3 = 60杯饲料。

为了找出她在一天的最后一顿饭中需要给鸡喂多少饲料，我们需要从早上和下午给出的总饲料量中减去一天所需的总饲料量。20只鸡一天所需的总饲料量为20 x 3 x 3 = 180 杯饲料。

所以，一天中最后一顿饭需要的饲料量为180 - 60 - 60 = 60杯饲料。

因此，Wendi需要在一天的最后一顿饭里给她的鸡喂食60杯。答案：60

CoT+RE2

Output:Input:

Q:每天，Wendi 每只鸡喂三杯混合鸡饲料，其中包括种子、蠕虫和蔬菜，以帮助它们保持健康。她将鸡饲料分三餐喂给鸡。早上，她给她的一群鸡喂了15杯饲料。下午，她再给鸡喂25杯饲料。如果 Wendi 的鸡群有20只，那么在一天最后一顿饭中她需要给鸡喂多少杯饲料？

每天，文迪给她的每只鸡喂三杯混合鸡饲料，其中包括种子、粉虫和蔬菜，以帮助它们保持健康。她将饲料分成三顿喂给鸡。早上，她给她的一群鸡喂了15杯饲料。下午，她又给鸡喂了25杯饲料。如果文迪的鸡群有20只，那么她在一天最后一顿饭要给鸡喂多少杯饲料？

你最终的答案应该是一个单独的数字，格式为答案，在你的回答末尾。

思考一步一步。输出：

早上，Wendi给她的鸡喂食物的总量是15杯，在下午，她另外再给了25杯。所以，早上和下午给的总饲料量是15 + 25 = 40杯。

接下来，我们需要确定温迪的20只鸡群所需的总饲料量。由于每只鸡需要3杯饲料，我们将3乘以20得到60杯。

最终，我们将早晚给予的总饲料量从总需求量中减去。60 - 40 = 20。因此，温迪需要在一天的最后一顿饲料中给她的鸡20杯饲料。答案：20

表12: GSM示例4 (复杂度=3)

提姆得到了一份晋升，薪水将提高5%，从每月20000美元增加到262500美元。此外，他还将获得价值半个月工资的奖金。他一年能赚多少钱？（答案：262500）

CoT

Output:Input:

提姆得到了一个晋升，工资将提高5%，月薪为20000美元。此外，他将获得价值半个月工资的奖金。他一年能挣多少钱？

你最终的答案应该是一个单独的数字，格式为答案，在你的回答末尾。

A:让我们逐步思考。

##正文段落内容： The concept of artificial intelligence (AI) refers to the simulation of human intelligence in machines that are programmed to think and act like humans. These machines are designed to perform tasks that typically require human intelligence, such as visual perception, speech recognition, decision-making, and language translation. ## 所需要的语言：中文 Output: 人工智能（AI）的概念是指在机器中模拟人类智能，使其能够像人类一样进行思维和行动。这些机器被设计用于执行通常需要人类智能的任务，如视觉感知、语音识别、决策制定和语言翻译。

首先，让我们计算提姆每月$20000的工资涨幅5%。为此，我们将$20000乘以5%（或0.05）：

$20000 * 0.05 = $1000

所以，Tim的加薪是每月1000美元。

接下来，让我们计算价值为半个月工资的奖金。$20000的一半是$10000，所以Tim的奖金是$10000。

现在，让我们计算提薪和奖金后Tim的总月工资：

$20000 (原始工资) + $1000 (加薪) + $10000 (奖金) = $31000

最后，让我们通过将Tim的月工资乘以12来计算他的年工资：$31000 * 12 = $372000

因此，蒂姆一年将赚取372000美元。所以，答案是372000。

CoT+RE2

Output:Input:

提姆得到了一个晋升，月薪涨了5%，达到了20000美元。此外，他还得到了价值半个月工资的奖金。他一年可以赚多少钱？

再次阅读问题：蒂姆获得了一个晋升，月薪为20000美元，增加了5%。此外，他还获得了价值半个月薪水的奖金。他一年能赚多少钱？

你最终的答案应该是一个单独的数字，格式为答案，在你的回答末尾。

A:让我们逐步思考。

首先，让我们计算Tim每月$20000工资的5%加薪。

加薪金额为$20000的5%，即0.05 * $20000 = $1000。

所以，蒂姆的新月薪将是$20000 + $1000 = $21000。

接下来，让我们计算奖金的金额。奖金价值为半个月的工资，即等于0.5 * 21000美元 = 10500美元。

现在，要找出Tim一年能赚多少钱，我们需要计算12个月的总工资并加上奖金。

12个月的总工资 = $21000 * 12 = $252000.

所以，Tim 一年总共会赚$252000 + $10500 = $262500。

因此，Tim 一年将会赚取262500。

表13：GSM示例641（复杂度=6）

科尔比喜欢去电影院，每个月父母给他150美元供他在电影院消费。周五和周六的电影票价为10美元。其他日子的电影票价为7美元。爆米花售价8美元，糖果盒售价2美元。这是一个月的最后一天，是星期五。他想确保那天晚上买一份爆米花和一个糖果盒。如果这个月他已经在周五或周六看了5次电影，在其他日子看了8次电影，吃了2份爆米花，和四个糖果盒，他还能看多少部电影？（答案：1）

CoT

Output:Input:

Q: Colby喜欢去电影院，每个月他的父母给他$150去看电影。星期五和星期六的电影票价是$10。其他日子的票价是$7。爆米花的价格是$8，糖果盒的价格是$2。这个月是最后一天，而且是星期五。他想确保那天晚上有爆米花和糖果盒。如果他这个月已经在星期五或星期六看了5场电影，在其他日子看了8场电影，吃了2桶爆米花，和四盒糖果，那他能看多少场电影？

你最终的答案应该是一个单独的数字，格式为答案，在你的回答末尾。

思考一步一步。输出：

首先，让我们计算科尔比已经看过的电影的成本。他在星期五或星期六观看了5部电影，每部电影费用为$10，所以一共是5 * $10 = $50。他还在其他日子看了8部电影，每部电影费用为$7，所以一共是8 * $7 = $56。因此，他已经看过的电影的总成本为$50 + $56 = $106。

接下来，让我们计算他在本月最后一天想要购买的爆米花和糖果的成本。爆米花的价格为$8，糖果的价格为$2，因此零食的总成本为$8 + $2 = $10。

现在，让我们从卡尔比已经看过的电影和零食的费用中减去他父母给他的150美元。

$150 - $106 - $10 = $34.$150 - $106 - $10 = $34.

由于每部星期五或星期六的电影票价为$10，而科尔比还剩下$34，他最多可以看3部星期五或星期六的电影。

总之，Colby在这个月可以看总共 3 + 5 = 8 部电影。8

CoT+RE2

Output:Input:

科尔比喜欢去电影院，每个月他的父母给他150美元供他在电影院消费。周五和周六的电影票价为10美元，其他任何一天的电影票价为7美元。爆米花售价为8美元，糖果盒售价为2美元。现在是月底的最后一天，是一个星期五。他想确保当晚能买到爆米花和一盒糖果。如果这个月他已经在周五或周六看了5场电影，在其他日子看了8场电影，吃了2份爆米花，以及4盒糖果，那么他还能看多少场电影？

再次阅读问题：Colby喜欢去电影院，每个月他的父母给他$150去看电影。周五和周六的电影票价为$10。其他任何一天的电影票价为$7。爆米花的价钱是$8，糖果盒的价钱是$2。这是这个月的最后一天，是个星期五。他想确保那天晚上能买到一份爆米花和一个糖果盒。如果他这个月已经在星期五或星期六看过5部电影，在其他日子看过8部电影，吃过两份爆米花，和四个糖果盒，他还能看多少部电影？

你最终的答案应该是一个单独的数字，格式为答案，在你的回答末尾。

A:让我们逐步思考。

首先，让我们计算一下Colby目前已经花费的总金额：

对于每周五和周六共5部电影，他花费了5 x $10 = $50。对于其他日期的8部电影，他花费了8 x $7 = $56。对于2桶爆米花，他花费了2 x $8 = $16。对于4盒糖果，他花费了4 x $2 = $8。

将所有这些费用加在一起，Colby总共花费了$50 + $56 + $16 + $8 = $130。

现在，让我们计算一下他从父母给的150美元中还剩下多少钱：

Colby以 150 美元减去 130 美元，得到 20 美元。

由于今天是本月的最后一天，而且是周五，他想买一份爆米花（$8）和一盒糖果（$2）。这意味着他将花费$8 + $2 = $10。

因此，Colby将剩下$20 - $10 = $10。

现在，让我们计算他剩下的10美元可以看多少部电影：

由于星期五和星期六的电影票价是10美元，而他还剩下10美元，因此他可以在星期五或星期六看1部电影。因此，科尔比可以在月底的最后一天再观看1部电影。

所以，最终答案是1。

表14：GSM示例926（复杂度>=9）

迈克和5个人有笔友关系。他和其中的2个人停止了笔友关系。他们每周互相寄送2封信，每封信有5页。他也用同样的方式回复。他每6分钟可以写一页。他每周写字花费多少小时？（答案：3）

CoT

Output:Input:

Q: Mike和5位人成为笔友。他停止和其中的2位保持书信往来。他们每人每周寄出2封每封5页的信。他也会回复同样数量的信。他每6分钟可以写一页。他每周花费多少小时写信？

你最终的答案应该是一个单独的数字，格式为答案，在你的回答末尾。

思考一步一步。输出：

首先，让我们计算一下迈克每周从5位笔友那里收到多少封信。每位笔友每周发送2封信，因此5位笔友每周会给他寄去5 * 2 = 10封信。

接下来，让我们计算迈克需要回复每封信件的页数。每封信件有5页长，迈克也会以同样的方式回复，因此他会为每封他收到的信件写5页。

因此，迈克需要在一周内写完总共10 * 5 = 50 页。

现在，让我们计算一下Mike写一页需要多少分钟。我们知道他可以在6分钟内写完一页。

由于迈克需要写50页，因此他将花费50 * 6 = 300分钟来完成所有的写作。

最后，让我们将分钟转换为小时。一小时有60分钟，因此300分钟相当于300/60 = 5小时。因此，迈克每周花费5小时写作。

答案：5。

CoT+RE2

Output:Input:

迈克和5个人成为笔友。后来他和其中2个人停止了书信往来。他们每人每周寄出2封信，每封信有5页纸。迈克则作出回应。他每6分钟可以写一页纸。他每周写信花费了多少小时？

再读一遍问题：迈克和5个人成为笔友。他和其中的2个人停止了通信。他们每周各寄送2封信，每封信5页长。他也会以同样的方式回复。他每6分钟可以写一页。他每周写信花费多少小时？

你最终的答案应该是一个单独的数字，格式为答案，在你的回答末尾。

思考一步一步。输出：

首先，让我们计算迈克一周收到的信件总数。由于他曾经与5个人通信，而现在只与其中的2人保持通信，所以他仍然收到来自3个人的信件。

每个人每周发送2封信，所以迈克一周收到的总信件数为3 * 2 = 6封信。接下来，让我们计算迈克需要回信的总页数。每封信包含5页，所以迈克需要写的总页数为6 * 5 = 30页。

由于迈克每6分钟可以写一页，所以他一周写作的总时间是30 * 6 = 180分钟。

将这个数字转换成小时，我们需要除以60，因为一个小时有60分钟。所以，Mike每周花费 180 / 60 = 3 小时写作。

因此，迈克每周花费3小时写作。

表15：GSM示例242（复杂度=6）

Q：Terri正在编织一件毛衣，毛衣有两个袖子、一个领口和一个装饰性的褶饰。毛衣本体需要完成900针，领口需要完成此数量的十分之一，褶饰所需的针数是领口的两倍。整件毛衣共有1800针。每个袖子需要多少针？（答案：315）

CoT

Output:Input:

Q: Terri正在编织一件带有两个袖子、一条衣领和一个装饰性玫瑰花的毛衣。毛衣的主体需要完成900针，衣领需要完成主体针数的十分之一，而玫瑰花需要完成衣领针数的两倍。整件毛衣共有1800针。每个袖子各自需要多少针？

你最终的答案应该是一个单独的数字，格式为答案，在你的回答末尾。

A:让我们逐步思考。

首先，我们知道毛衣的身体需要900针完成。

接下来，我们知道领口所需的针数是身体的十分之一。因此，领口需要900 针 / 10 = 90 针。

最后，我们知道花边所需的针数是领口的两倍。因此，花边需要90 针 * 2 = 180 针。为了找出每只袖子所需的针数，我们需要将毛衣总针数中的身体、领口和花边的针数相减。

所以，每个袖子需要1800针 - 900针（身体）- 90针（领口）- 180针（花朵）= 630针。

因此，每个袖子需要630针。

CoT+RE2

Terri正在编织一件毛衣，其中包括两只袖子、一条领口和一个装饰性花朵。毛衣的主体需要完成900针，领口需要完成主体针数的十分之一，而花朵需要完成领口针数的两倍。

整件毛衣是一个1800针的项目。每只袖子需要多少针？

你最终的答案应该是一个单独的数字，格式为答案，在你的回答末尾。

A:让我们逐步思考。

人工智能（AI）的概念是指在机器中模拟人类智能，使其能够像人类一样进行思维和行动。这些机器被设计用于执行通常需要人类智能的任务，如视觉感知、语音识别、决策制定和语言翻译。

首先，我们知道毛衣的身体需要900针完成。

接下来，我们被告知领口的针数为毛衣身的十分之一。由于毛衣身有900针，领口将有900 / 10 = 90针。

最后，我们被告知蔷薇花边的针数是领口的两倍。由于领口有90针，所以蔷薇花边将有90 * 2 = 180针。

现在，让我们将所有的针数加起来，找出毛衣的总针数：900（主体）+ 90（领口）+ 180（花边）= 1170针。

给定整个毛衣项目包含1800针。所以，剩下的针数必须是用于袖子的。

1800（总针数）- 1170（已算入的针数）= 630 针用于袖子。

每个袖子将有 315 根针。

因此，每个袖子需要315针。

表16：GSM示例273（复杂度=6）

Solo必须从他的科学课本中读4页，社会研究课本中读20页，历史课本中读7页，地理课本中读8页。Solo在周一读了15页。如果他还有4天时间完成所有阅读，那么每天需要平均阅读多少页？（答案：6）

CoT

Output:Input:

Solo需要平均每天阅读多少页？翻译后的答案：15页。

你最终的答案应该是一个单独的数字，格式为答案，在你的回答末尾。

思考一步一步。输出：

首先，让我们计算Solo还需要阅读多少页。他需要从他的科学课本中阅读4页，社会研究课本中阅读20页，历史课本中阅读7页，地理课本中阅读8页。

所以，他需要阅读的总页数是4 + 20 + 7 + 8 = 39 页。

Solo还有4天的时间来完成阅读，我们可以将总页数除以天数来计算。因此，Solo需要每天平均阅读39页/4天 = 9.75页。

因此，Solo 需要每天阅读平均 9.75 页。

CoT+RE2

Output:Input:

Solo需要在一天内平均阅读多少页？

Solo需要每天读多少页？再读一遍问题：Solo需要从他的科学教科书中读4页，社会研究教科书中读20页，历史教科书中读7页，地理教科书中读8页。Solo星期一读了15页。如果他还有4天的时间完成所有的阅读，他平均每天需要读多少页？

你最终的答案应该是一个单独的数字，格式为答案，在你的回答末尾。

思考一步一步。输出：

首先，让我们计算Solo需要阅读的总页数。他需要从他的科学教科书中阅读4页，从社会学教科书中阅读20页，从历史教科书中阅读7页，从地理教科书中阅读8页。因此，他需要阅读的总页数是4 + 20 + 7 + 8 = 39页。

接下来，让我们计算他在周一之后还剩下多少页要阅读。他在周一读了15页，所以他还剩下39 - 15 = 24页要阅读。

最后，让我们计算他每天需要阅读的平均页数。他还有4天的时间来完成阅读，所以他每天需要阅读24 / 4 = 6页。

因此，Solo 需要每天平均阅读 6 页。

表17：GSM示例101（复杂度=6）

Input:一角硬币能放进考拉的育儿袋吗？（答案：是）

CoT

Output:

一个镍币能放进考拉的育儿袋里吗？

你的回答应该是“是”或“否”，以回答的形式。

A:让我们逐步思考。

Output:人工智能（AI）的概念是指在机器中模拟人类智能，使其能够像人类一样进行思维和行动。这些机器被设计用于执行通常需要人类智能的任务，如视觉感知、语音识别、决策制定和语言翻译。

首先，让我们考虑一下镍币的尺寸。一个镍币直径约为21.21毫米，厚度约为1.95毫米。

接下来，让我们考虑考考袋的大小。考考袋设计用来容纳考考宝宝，也被称为袋鼠。考考袋的大小可能有所不同，但一般来说不足以容纳尺寸像一美分硬币那么大的物体。

因此，根据一个镍币的大小和考拉育儿袋的大小，一个镍币不太可能放得进考拉育儿袋里。

CoT+RE2

Output:Input:

一个镍币能放进考拉的育儿袋里吗？

再读一遍问题：镍币能放进考拉育儿袋里吗？

你的回答应该是“是”或“否”，以回答的形式。

A:让我们逐步思考。

Output: 人工智能（AI）的概念是指在机器中模拟人类智能，使其能够像人类一样进行思维和行动。这些机器被设计用于执行通常需要人类智能的任务，如视觉感知、语音识别、决策制定和语言翻译。

首先，让我们考虑一下镍币的大小。一枚镍币的直径约为0.835英寸（21.21毫米），厚度约为0.077英寸（1.95毫米）。

接下来，让我们考虑考考袋袋的大小。考考袋袋设计用于容纳考考宝宝，也被称为袋鼠。袋鼠袋是有弹性的，并随着宝宝的成长而扩展。然而，袋鼠袋的大小可能会因宝宝的年龄和体型而有所不同。

根据一个镍币的大小和考拉育儿袋的伸缩性，有可能一个镍币可以放进考拉育儿袋里。

然而，这将取决于袋子的大小和袋中袋鼠的位置。因此，答案是是的，一个镍币有可能放进袋鼠袋里。

表18：StrategyQA示例262

53AI，企业落地大模型首选服务商

产品：场景落地咨询+大模型应用平台+行业解决方案

承诺：免费场景POC验证，效果验证后签署服务协议。零风险落地应用大模型，已交付160+中大型企业