微信扫码
与创始人交个朋友
我要投稿
ASU研究人员评估了ReAct提示方法,发现其对大型语言模型推理能力的提升主要源于示例与查询任务之间的相似性,而非其所声称的推理轨迹与行动执行交织带来的益处。
大型语言模型 (LLMs) 在自然语言处理 (NLP) 和自然语言理解 (NLU) 方面取得了快速进展。这些模型在文本生成、摘要、翻译和问答方面表现出色。凭借这些能力,研究人员热衷于探索它们在需要推理和规划的任务中的潜力。本研究评估了特定 prompting 技术在复杂顺序任务中增强 LLM 决策能力方面的有效性。
在利用 LLM 进行推理任务时,一个重大挑战是如何确定改进是真正的还是表面的。ReAct prompting 方法将推理轨迹与动作执行相结合,声称可以提高 LLM 在顺序决策中的性能。然而,关于这些增强是由于真正的推理能力还是仅仅基于输入示例的模式识别,目前存在争议。本研究旨在剖析这些说法,并更清楚地了解影响 LLM 性能的因素。
现有的提高 LLM 在推理任务上性能的方法包括各种形式的 prompt engineering。诸如思维链 (CoT) 和 ReAct prompting 之类的技术通过在 prompt 中嵌入结构化推理或指令来指导 LLM 完成复杂任务。这些方法旨在使 LLM 模拟逐步解决问题的过程,这被认为有助于需要逻辑推理和规划的任务。
来自亚利桑那州立大学的研究团队引入了一项综合分析来评估 ReAct 框架的说法。ReAct 方法断言,将推理轨迹与动作交织可以增强 LLM 的决策能力。研究人员使用不同的模型(包括 GPT-3.5-turbo、GPT-3.5-instruct、GPT-4 和 Claude-Opus)在一个称为 AlfWorld 的模拟环境中进行了实验。通过系统地改变输入 prompt,他们旨在确定 ReAct 方法带来的性能改进的真正来源。
在他们的详细分析中,研究人员对 ReAct prompt 引入了一些变体,以测试该方法的不同方面。他们检查了将推理轨迹与动作交织的重要性、提供的指导的类型和结构,以及示例任务和查询任务之间的相似性。他们的发现很有启发性。LLM 的性能几乎不受推理轨迹与动作执行交织的影响。相反,关键因素是输入示例和查询之间的相似性,这表明改进是由于模式匹配而不是增强的推理能力。
实验产生了量化结果,突出了 ReAct 框架的局限性。例如,GPT-3.5-turbo 在 AlfWorld 中六个不同任务上的成功率在使用基本的 ReAct prompt 时为 27.6%,但在使用基于示例的 CoT prompt 时提高到 46.6%。同样,当示例任务和查询任务之间的相似性降低时,GPT-4 的性能显着下降,突出了该方法的脆弱性。这些结果表明,虽然 ReAct 可能看起来很有效,但其成功很大程度上取决于 prompt 中的具体示例。
一个值得注意的发现是,提供不相关或安慰剂式的指导并没有显着降低性能。例如,使用较弱的或安慰剂式的指导(其中提供的文本不包含相关信息)显示出与基于强推理轨迹的指导相当的结果。这对推理轨迹的内容对 LLM 性能至关重要的假设提出了挑战。相反,成功源于示例和任务之间的相似性,而不是 LLM 固有的推理能力。
研究快照
总之,本研究通过证明 ReAct 框架的感知效益主要归因于示例任务和查询任务之间的相似性,从而对该框架的说法提出了质疑。对特定于实例的示例的需求以实现高性能对更广泛的应用提出了可扩展性问题。研究结果强调了密切评估 prompt engineering 方法及其在推理和规划任务中增强 LLM 性能的所谓能力的重要性。
53AI,企业落地应用大模型首选服务商
产品:大模型应用平台+智能体定制开发+落地咨询服务
承诺:先做场景POC验证,看到效果再签署服务协议。零风险落地应用大模型,已交付160+中大型企业
2024-09-18
2024-07-18
2024-07-02
2024-07-10
2024-07-09
2024-07-10
2024-07-15
2024-07-14
2024-08-14
2024-07-26
2024-11-13
2024-10-31
2024-10-29
2024-10-16
2024-09-19
2024-08-28
2024-08-24
2024-08-11