微信扫码
与创始人交个朋友
我要投稿
已提出了几种提示技术来缓解这一问题,其中一个有前景的方向是检索增强生成(RAG),它从人类推理中获取见解,并利用检索到的信息来促进更加基于事实的推理。在本文中,论文探讨如何将RAG与精心设计的长期推理相结合。论文的直觉是,在中间推理过程中的幻觉可以通过外部知识的帮助得到缓解。由此产生的提示策略称为检索增强思维(RAT),如图1所示。论文的策略包括两个关键想法。
首先,LLM产生的初始zero-shotCoT以及原始任务提示将被用作查询,以检索可能有助于修订可能存在缺陷的CoT的信息。其次,论文设计了一种逐步方法,而不是一次性检索和修订整个CoT并生成最终响应。LLM按照CoT(一系列子任务)一步步生成响应,仅根据使用任务提示、当前和过去的CoT检索到的信息来修订当前思维步骤。这种策略可以类比于人类推理过程:在解决复杂的长期问题时,论文利用外部知识来调整逐步思考。RAT与其他方法的比较可以在图2中找到。
检索增强生成(RAG)旨在通过为大型语言模型提供从可信赖来源提取的相关文本,来解决生成虚构事实的问题。它主要用于问答(QA)任务。
根据相关性,排名靠前的k个文档将被输入到大型语言模型的提示中以生成最终答案。有了如此丰富且实际的上下文,RAG可以缓解大型语言模型的幻觉问题。然而,对于复杂的推理任务(例如需要多步推理的任务),将其转化为有效的搜索查询是很困难的,这导致了难以找到相关文档,使RAG的适用性降低。传统上,RAG一次性检索所有相关信息。但它忽视了一个事实,那就是很难预测在后续的推理和生成步骤中需要什么"事实"或信息。仅凭任务提示本身很难提供足够的线索。
思维链(CoT)提示旨在提高大型语言模型在需要复杂推理步骤的任务(如多步数学应用题)上的性能。具体来说,CoT提示鼓励大型语言模型先输出作为任务草稿的中间推理步骤(即思维),然后再将这些思维总结为最终答案,而不是直接要求生成正确答案。这种大型语言模型的行为可以通过zero-shot提示来刺激,即使用鼓励CoT推理的术语(如"让论文一步步思考")
论文缓解上述CoT提示和RAG问题的直觉是将RAG应用于修订CoT提示生成的每一个思维步骤。概览见图1和算法1。
这种方法允许通过不断参考不同的参考文本来纠正原始思维T中的错误,并确保每一步的推理都借助最准确和最相关的信息,从而大大提高了生成输出的质量和可靠性。
论文认为论文的方法之所以能解决本节开头提到的两个问题,理由如下:
首先,了解在复杂推理中将使用何种信息的最直接方式是"观察"推理步骤。论文的方法利用所有生成的思维以及任务提示来提供更多线索,以实现更有效的检索。
其次,有些信息无法直接检索,尤其是与艰难的复杂问题的最终答案相关的信息。相反,检索与中间问题相关的信息(假设更容易)则更易获取。由于许多推理任务具有组合性质,迭代式检索过程也可能更有效。
第三,纠正潜在的幻觉需要有针对性。使用RAG修订完整的CoT可能会在本已正确的步骤中引入错误。一步步修订每个步骤可能更可靠。前两点解决了问题(1),最后一点解决了问题(2)。论文在3.4小节的消融研究中可以找到定量证据。
代码生成包括HumanEval、HumanEval+、MBPP和MBPP+。这些基准测试涵盖了广泛的编程问题,从简单的函数实现到更复杂的算法挑战,为评估生成能力提供了一个强有力的测试平台。
数学推理评估是在GSM8K和GSM-HARD数据集上进行的,该数据集包含数千个多步数学问题。
创意写作任务用于评估RAT的多功能性,包括调查、总结等,突出了开放式文本生成的不同方面。
规划任务在开放式环境Minecraft中进行评估。通过MCTextWorld评估了一组从简单目标到具有挑战性的钻石目标的100个任务。
评估指标。对于代码生成,论文选择了经典的通过率pass@k作为评估指标,k表示采样数量。论文计算准确度来评估数学推理任务中的每个问题,与GSM8K的既定指标保持一致。对于体现规划任务,论文计算MC-TextWorld中的计划执行成功率作为可执行性。论文还进行了人工等级评估,计算了体现规划(作为可信度)和创意写作任务的真实技能评级分数。这些指标值越高越好。
基线模型。为建立全面和公平的比较环境,论文纳入了一系列基线方法。论文的基线包括原始语言模型,称为DIRECT,以及由Lewis等人(2020b)记录的单次(1shot)和多次(5shot)配置下的检索增强生成(RAG)方法,带有n个检索示例。此外,论文检查了由Kojima等人(2022)概念化的zero-shot CoT(CoT)方法,它模拟逐步推理过程来促进零示例下的复杂问题解决任务。对于不同的方法,使用了相同的语言模型作为基础模型。为确保公平比较,所有方法在上下文学习时都未使用基准测试中的示例。
RAG设置。RAT利用了检索增强生成方法的能力,通过整合外部知识源来提高语言模型的性能。具体来说,论文使用codeparrot/github-jupyter数据集作为代码生成和数学推理任务的主要搜索向量库。对于Minecraft中的体现规划任务,论文使用Minecraft Wiki1和DigMinecraft2网站作为大型语言模型可访问的信息源。对于开放式创意写作任务,论文使用Google在互联网上搜索查询。论文使用OpenAI的text-embedding-ada-002 API服务计算不同方法和基础模型的所有嵌入。
考虑到基准污染的风险(代码库可能包含正在评估的确切问题的解决方案),论文采用了Guo等人(2024年)所述的严格预处理方法。基准污染的潜在影响以及论文的预处理策略的有效性在附录D中有详细讨论。
表1所示的代码生成结果和表2所示的其他基准测试结果,证明了RAT在多个基准测试中的全面评估。RAT在大多数基准测试和指标上的表现始终优于其他方法,展现了其在生成长期上下文方面的卓越能力。
值得注意的是,在代码生成的HumanEval和HumanEval+基准测试中,RAT在pass@1和pass@5率方面取得了显著提高,表明第一次尝试的准确性和前五次尝试内的准确性都有显著提升。例如,在HumanEval基准测试中,与基础模型的表现相比,RAT将pass@1提高了高达20.94%,pass@5提高了高达25.68%。这一趋势在不同的基础模型中都有体现,突显了RAT的有效性不受初始模型能力的限制。
对于数学推理任务,RAT展现出显著的相对改进,在GSM8K上准确率提高8.37%,在GSMHard上更是提高31.37%,在部署于GPT-3.5模型时,总体平均改进达到18.44%。
RAT在Minecraft开放式体现规划任务中远远优于所有其他方法,可执行性达到76.67±8.02%的最高分数,可信度人工评级分数为29.37分,展现了其在复杂开放世界环境中生成可行且符合背景的规划的卓越能力。
RAT在广泛的创意写作任务中也保持了卓越表现。它展现了在多种场景下生成高质量内容的能力,凸显了作为提升大型语言模型在开放式场景下创意写作综合能力的强大工具的潜力。
与多文档问答任务类似,在Minecraft中进行长期规划任务是知识密集型的,需要考虑各种物品以完成每个任务。然而,互联网上关于开放世界Minecraft的知识是碎片化的,任务的完成往往依赖于来自多个来源的信息。论文观察到,虽然像ChatGPT这样的语言模型可以通过zero-shotCoT推理识别出必需的物品,但在程序步骤上存在不准确是常见的。例如,ChatGPT错误地将制作工作台所需的材料识别为4个木块(正确答案是4块木板),这表明CoT规划在可执行性可靠性方面存在不足。
另一方面,RAT基于语言模型草稿答案进行搜索,发现幻觉通常出现在细节方面,比如具体日期,但这不会妨碍搜索引擎识别出"美国内战开始日期"这样的相关信息。RAT利用检索到的内容来识别和纠正草稿答案中的错误,而不是简单地总结检索内容。因此,RAT可以通过推理实现完整的生成,并利用检索到的知识来提高答案的准确性和可信度。实验结果验证了RAT的有效性。
消融研究中还探讨了RAT中因果推理的影响。在这项研究中,论文有系统地检查了因果和非因果推理方法对RAT系统性能的影响,以思维链(CoT)作为基线。如表4所总结的结果显示,在生成能力方面,采用因果推理技术取得了显著的提升。
对于数学推理任务,RAT展现出显著的相对改进,当应用于GPT-3.5模型时,总体平均改进达到18.44%。这种改进趋势在GPT-4上也有体现,从DIRECT到RAT相对改进了10.26%,成绩显著。这些发现凸显了RAT的稳健性,以及其有效增强语言模型在广泛的计算和创意任务中的性能。
53AI,企业落地应用大模型首选服务商
产品:大模型应用平台+智能体定制开发+落地咨询服务
承诺:先做场景POC验证,看到效果再签署服务协议。零风险落地应用大模型,已交付160+中大型企业
2024-03-30
2024-04-26
2024-05-10
2024-05-28
2024-04-12
2024-04-25
2024-05-14
2024-08-13
2024-07-18
2024-05-06