我要投稿

检索增强思维（RAT）方法，通过协同思维链（CoT）提示

发布日期：2024-04-16 06:57:04 浏览次数： 2702

作者：AI帝国

微信搜一搜，关注“AI帝国”

一、结论写在前面

论文探索了如何利用信息检索来迭代修订思维链，从而显著提高大型语言模型在长期生成任务中的推理和生成能力，同时极大地缓解了幻觉产生的问题。论文提出了检索增强思维（RAT），这是一种简单而有效的提示策略，它通过协同思维链（CoT）提示和检索增强生成（RAG）来解决具有挑战性的长视距推理和生成任务。论文的关键思想是通过使用思维作为查询来通过RAG修订LLM生成的zero-shot思维链，并逐步因果修订思维并生成响应。RAT，一种zero-shot提示方法，在具有挑战性的代码生成、数学推理、体验任务规划和创造性写作任务上表现出明显优势，优于普通的CoT提示、RAG和其他基线。

二、论文的简单介绍

2.1 论文背景

LLM在各种自然语言推理任务上取得了丰硕的进展，尤其是在结合大模型和精心设计的提示策略时。然而，人们越来越关注LLM推理的事实正确性，引用模型响应或中间推理路径可能出现的幻觉。当涉及zero-shot CoT提示(即"让论文一步步思考")和需要多步且需要背景感知推理的长期生成任务时，这个问题变得更加严重，包括代码生成、任务规划、数学推理等。事实有效的中间思路对于成功完成这些任务至关重要。

已提出了几种提示技术来缓解这一问题，其中一个有前景的方向是检索增强生成(RAG)，它从人类推理中获取见解，并利用检索到的信息来促进更加基于事实的推理。在本文中，论文探讨如何将RAG与精心设计的长期推理相结合。论文的直觉是，在中间推理过程中的幻觉可以通过外部知识的帮助得到缓解。由此产生的提示策略称为检索增强思维(RAT)，如图1所示。论文的策略包括两个关键想法。

首先，LLM产生的初始zero-shotCoT以及原始任务提示将被用作查询，以检索可能有助于修订可能存在缺陷的CoT的信息。其次，论文设计了一种逐步方法，而不是一次性检索和修订整个CoT并生成最终响应。LLM按照CoT(一系列子任务)一步步生成响应，仅根据使用任务提示、当前和过去的CoT检索到的信息来修订当前思维步骤。这种策略可以类比于人类推理过程:在解决复杂的长期问题时，论文利用外部知识来调整逐步思考。RAT与其他方法的比较可以在图2中找到。

2.2 论文方案

论文的目标是在使用大型语言模型时支持长期推理和生成，同时缓解幻觉问题。要在长期任务上取得令人满意的性能，两个因素是不可或缺的。首先，检索可以促进获取事实信息。其次，CoT可以促进概述完成复杂任务所需的适当中间步骤。然而，简单地将两者相结合未必会产生改进。仍有两个问题存在：(1)要检索何种相关信息;(2)如何有效地用相关的事实信息来纠正推理步骤。为了更好地理解论文的方法以及为什么论文的方法可以解决这两个问题，论文首先简要介绍一下RAG和CoT。

检索增强生成(RAG)旨在通过为大型语言模型提供从可信赖来源提取的相关文本，来解决生成虚构事实的问题。它主要用于问答(QA)任务。

根据相关性，排名靠前的k个文档将被输入到大型语言模型的提示中以生成最终答案。有了如此丰富且实际的上下文，RAG可以缓解大型语言模型的幻觉问题。然而，对于复杂的推理任务(例如需要多步推理的任务)，将其转化为有效的搜索查询是很困难的，这导致了难以找到相关文档，使RAG的适用性降低。传统上，RAG一次性检索所有相关信息。但它忽视了一个事实，那就是很难预测在后续的推理和生成步骤中需要什么"事实"或信息。仅凭任务提示本身很难提供足够的线索。

思维链(CoT)提示旨在提高大型语言模型在需要复杂推理步骤的任务(如多步数学应用题)上的性能。具体来说，CoT提示鼓励大型语言模型先输出作为任务草稿的中间推理步骤(即思维)，然后再将这些思维总结为最终答案，而不是直接要求生成正确答案。这种大型语言模型的行为可以通过zero-shot提示来刺激，即使用鼓励CoT推理的术语(如"让论文一步步思考")

论文缓解上述CoT提示和RAG问题的直觉是将RAG应用于修订CoT提示生成的每一个思维步骤。概览见图1和算法1。

这种方法允许通过不断参考不同的参考文本来纠正原始思维T中的错误，并确保每一步的推理都借助最准确和最相关的信息，从而大大提高了生成输出的质量和可靠性。

论文认为论文的方法之所以能解决本节开头提到的两个问题，理由如下:

首先，了解在复杂推理中将使用何种信息的最直接方式是"观察"推理步骤。论文的方法利用所有生成的思维以及任务提示来提供更多线索，以实现更有效的检索。

其次，有些信息无法直接检索，尤其是与艰难的复杂问题的最终答案相关的信息。相反，检索与中间问题相关的信息(假设更容易)则更易获取。由于许多推理任务具有组合性质，迭代式检索过程也可能更有效。

第三，纠正潜在的幻觉需要有针对性。使用RAG修订完整的CoT可能会在本已正确的步骤中引入错误。一步步修订每个步骤可能更可靠。前两点解决了问题(1)，最后一点解决了问题(2)。论文在3.4小节的消融研究中可以找到定量证据。

2.3 论文效果

论文在一系列突出长期生成和推理的基准测试上测试了论文提出的RAT方法。现有方法传统上在这些基准测试中举步维艰;"幻觉"步骤在大型语言模型的输出中非常明显。这些步骤要么未能遵循原始查询，要么明显无效。论文恳请读者参阅3.3小节(案例分析)，了解更详细的讨论。由于篇幅限制，论文无法介绍每个基准测试的设置，也无法完整讨论论文在每个基准测试中的结果。相反，本节全面展示了论文方法的性能，并着重提供初步的实证分析，阐明论文的方法在何时有效、在何时失效以及原因所在。

2.3.1. 实验设置

论文采用了四组基准测试。

代码生成包括HumanEval、HumanEval+、MBPP和MBPP+。这些基准测试涵盖了广泛的编程问题，从简单的函数实现到更复杂的算法挑战，为评估生成能力提供了一个强有力的测试平台。

数学推理评估是在GSM8K和GSM-HARD数据集上进行的，该数据集包含数千个多步数学问题。

创意写作任务用于评估RAT的多功能性，包括调查、总结等，突出了开放式文本生成的不同方面。

规划任务在开放式环境Minecraft中进行评估。通过MCTextWorld评估了一组从简单目标到具有挑战性的钻石目标的100个任务。

评估指标。对于代码生成，论文选择了经典的通过率pass@k作为评估指标，k表示采样数量。论文计算准确度来评估数学推理任务中的每个问题，与GSM8K的既定指标保持一致。对于体现规划任务，论文计算MC-TextWorld中的计划执行成功率作为可执行性。论文还进行了人工等级评估，计算了体现规划(作为可信度)和创意写作任务的真实技能评级分数。这些指标值越高越好。

基线模型。为建立全面和公平的比较环境，论文纳入了一系列基线方法。论文的基线包括原始语言模型，称为DIRECT，以及由Lewis等人(2020b)记录的单次(1shot)和多次(5shot)配置下的检索增强生成(RAG)方法，带有n个检索示例。此外，论文检查了由Kojima等人(2022)概念化的zero-shot CoT(CoT)方法，它模拟逐步推理过程来促进零示例下的复杂问题解决任务。对于不同的方法，使用了相同的语言模型作为基础模型。为确保公平比较，所有方法在上下文学习时都未使用基准测试中的示例。

RAG设置。RAT利用了检索增强生成方法的能力，通过整合外部知识源来提高语言模型的性能。具体来说，论文使用codeparrot/github-jupyter数据集作为代码生成和数学推理任务的主要搜索向量库。对于Minecraft中的体现规划任务，论文使用Minecraft Wiki1和DigMinecraft2网站作为大型语言模型可访问的信息源。对于开放式创意写作任务，论文使用Google在互联网上搜索查询。论文使用OpenAI的text-embedding-ada-002 API服务计算不同方法和基础模型的所有嵌入。

考虑到基准污染的风险(代码库可能包含正在评估的确切问题的解决方案)，论文采用了Guo等人(2024年)所述的严格预处理方法。基准污染的潜在影响以及论文的预处理策略的有效性在附录D中有详细讨论。

2.3.2 结果

表1所示的代码生成结果和表2所示的其他基准测试结果，证明了RAT在多个基准测试中的全面评估。RAT在大多数基准测试和指标上的表现始终优于其他方法，展现了其在生成长期上下文方面的卓越能力。

值得注意的是，在代码生成的HumanEval和HumanEval+基准测试中，RAT在pass@1和pass@5率方面取得了显著提高，表明第一次尝试的准确性和前五次尝试内的准确性都有显著提升。例如，在HumanEval基准测试中，与基础模型的表现相比，RAT将pass@1提高了高达20.94%，pass@5提高了高达25.68%。这一趋势在不同的基础模型中都有体现，突显了RAT的有效性不受初始模型能力的限制。

对于数学推理任务，RAT展现出显著的相对改进，在GSM8K上准确率提高8.37%，在GSMHard上更是提高31.37%，在部署于GPT-3.5模型时，总体平均改进达到18.44%。

RAT在Minecraft开放式体现规划任务中远远优于所有其他方法，可执行性达到76.67±8.02%的最高分数，可信度人工评级分数为29.37分，展现了其在复杂开放世界环境中生成可行且符合背景的规划的卓越能力。

RAT在广泛的创意写作任务中也保持了卓越表现。它展现了在多种场景下生成高质量内容的能力，凸显了作为提升大型语言模型在开放式场景下创意写作综合能力的强大工具的潜力。

2.3.3 case分析

在这里，论文以体现规划任务和创意写作任务进行案例分析。

与多文档问答任务类似，在Minecraft中进行长期规划任务是知识密集型的，需要考虑各种物品以完成每个任务。然而，互联网上关于开放世界Minecraft的知识是碎片化的，任务的完成往往依赖于来自多个来源的信息。论文观察到，虽然像ChatGPT这样的语言模型可以通过zero-shotCoT推理识别出必需的物品，但在程序步骤上存在不准确是常见的。例如，ChatGPT错误地将制作工作台所需的材料识别为4个木块(正确答案是4块木板)，这表明CoT规划在可执行性可靠性方面存在不足。

另一方面，RAT基于语言模型草稿答案进行搜索，发现幻觉通常出现在细节方面，比如具体日期，但这不会妨碍搜索引擎识别出"美国内战开始日期"这样的相关信息。RAT利用检索到的内容来识别和纠正草稿答案中的错误，而不是简单地总结检索内容。因此，RAT可以通过推理实现完整的生成，并利用检索到的知识来提高答案的准确性和可信度。实验结果验证了RAT的有效性。

2.3.4. 消融研究

RAT检索的消融研究。在这项消融研究中，论文调查了各种检索策略对RAT的有效性的影响，重点是优化内容检索以改进生成输出。表3中详细的实验结果凸显了RAT通过迭代式优化检索查询相比基线方法取得了显著进步。标记为RAG-1的基线采用直接的方法，使用问题本身作为检索查询。相比之下，CoT+RAG通过利用语言模型输出的整个推理思路作为查询来增强这一过程，旨在获得更广泛的上下文理解。然而，RAT引入了一种更动态的方法，使用不断修改的推理思路部分作为查询，这允许进行更加专注和相关的信息检索过程。

消融研究中还探讨了RAT中因果推理的影响。在这项研究中，论文有系统地检查了因果和非因果推理方法对RAT系统性能的影响，以思维链(CoT)作为基线。如表4所总结的结果显示，在生成能力方面，采用因果推理技术取得了显著的提升。

2.3.5. RAT的稳健性

RAT在代码生成、数学推理、创意写作和体现规划等多种任务中经过了严格验证。这些不同类型的任务凸显了RAT的泛化能力，展现了其在高度多样的挑战中的稳健性能。

对于数学推理任务，RAT展现出显著的相对改进，当应用于GPT-3.5模型时，总体平均改进达到18.44%。这种改进趋势在GPT-4上也有体现，从DIRECT到RAT相对改进了10.26%，成绩显著。这些发现凸显了RAT的稳健性，以及其有效增强语言模型在广泛的计算和创意任务中的性能。

53AI，企业落地大模型首选服务商

产品：场景落地咨询+大模型应用平台+行业解决方案

承诺：免费场景POC验证，效果验证后签署服务协议。零风险落地应用大模型，已交付160+中大型企业