我要投稿

ReAct: Reasoning and Acting in LLM 论文解析

发布日期：2024-05-08 08:00:33 浏览次数： 4012

作者：AI奋进者

微信搜一搜，关注“AI奋进者”

ReAct: Synergizing Reasoning and Acting in Language Models 论文详细介绍了将大语言模型的能力与推理和行动相结合，以提高其在理解和交互决策任务中的表现。让我们一块来解读下。

论文摘要

论文主要探讨了如何将大语言模型的能力与推理和行动相结合，以提高其在理解和交互决策任务中的表现。该方法名为ReAct，通过交替生成推理轨迹和特定任务的动作，使两者之间产生更大的协同作用。实验结果表明，在问答和事实验证等任务中，ReAct能够克服传统链式思维推理中存在的幻觉和错误传播问题，并且生成的任务解决路径比基线更加可解释。此外，在两个互动决策基准测试中，ReAct的表现优于模仿学习和强化学习方法，分别提高了成功率34％和10％。

论文方法

方法描述

本文提出的 ReAct（Reasoning Action Trajectory）提供了一种基于少样本学习的多模态推理框架，用于回答自然语言问题。ReAct 通过在给定的任务上下文中自动搜索相关信息并根据搜索结果生成合理的答案。该方法使用了手动构建的 ReAct 格式的内容作为小样本提示Prompt并输入给LLM，以帮助模型更好地理解任务和上下文信息。

方法改进

为了解决传统的思维链方法CoT（Chain-of-thought prompting）容易出现虚假事实或想法的问题，本文提出了 ReAct 和 CoT-SC 的结合方法。具体来说，当 ReAct 没有在给定的步数内返回答案时，会切换到 CoT-SC；而当 CoT-SC 中大多数答案出现次数不到总次数的一半时，则会回到 ReAct。这种方法可以在保证准确性的前提下提高解决问题的速度和效率。

解决的问题

ReAct 提供了一种有效的解决方案，可以帮助语言模型更好地理解和回答自然语言问题。与传统的少样本学习方法相比，ReAct 更加高效、准确，可以处理更复杂的任务和场景。同时，本文还提出了一种新的结合方法，进一步提高了模型的性能和鲁棒性。

论文实验

论文主要介绍了ReAct这一新型的模型在不同任务上的表现，并与现有方法进行了比较。具体来说，本文进行了以下三个对比实验：

第一个实验是针对HotpotQA和Fever两个任务的比较。在这个实验中，作者使用了PaLM-540B作为基础模型，并比较了四种不同的提示方法（标准提示、CoT提示、Act提示和ReAct提示）的效果。结果表明，ReAct提示比Act提示表现更好，在这两个任务上都取得了更好的准确率。

第二个实验是对ReAct和CoT两种提示方法的比较。在这个实验中，作者比较了ReAct提示和CoT提示在HotpotQA和Fever两个任务上的效果。结果表明，ReAct提示在Fever任务上表现略好于CoT提示，但在HotpotQA任务上略微落后于CoT提示。

第三个实验是在ALFWorld和WebShop两个决策制定任务上的比较。在这个实验中，作者使用了随机标注的轨迹来提示模型，比较了Act提示和ReAct提示在这两个任务上的效果。结果表明，ReAct提示在这两个任务上都表现得更好，特别是在WebShop任务上，ReAct提示的表现十分优秀。

总的来说，本文展示了ReAct提示在多个任务上的优异表现，并证明了内部推理和外部反馈相结合的重要性。

论文总结

文章优点

该论文提出了ReAct的方法，将推理和行动结合起来，用于解决各种自然语言推理和决策问题。该方法在多个基准测试中表现出色，并且具有以下优点：

简单直观：设计ReAct提示是直接的，人类注释者只需将其思考以语言的形式添加到其采取的动作之上。
通用灵活：由于灵活的Thought → Action → Observation 模式，ReAct适用于各种任务，包括问答、事实验证、文本游戏和网页导航等。
性能表现良好：ReAct仅需学习一到六个上下文示例即可泛化到新任务实例，始终优于只使用推理或行动的基线方法。
可解释性和可控性：ReAct提供了可解释的决策过程，使人类能够轻松检查推理和事实正确性。此外，人类还可以通过编辑思路来控制或纠正代理行为。

方法创新点

该论文的主要贡献在于提出了ReAct方法，这是一种基于提示的语言模型，可以实现推理和行动之间的协同作用。具体来说，该方法实现了以下创新点：

引入了新的行动空间：将行动空间扩展为L，即语言空间，允许模型生成自由形式的语言思维，而不是仅仅执行操作。
使用无监督的少样本学习：ReAct只需要几个上下文示例就可以泛化到新任务实例，这使得它成为一种有效的无监督学习方法。
实现了与外部环境的交互：ReAct允许模型与外部环境（如Wikipedia）进行交互，从而支持更复杂的推理和决策过程。

未来展望

该论文提出的ReAct方法为解决自然语言推理和决策问题提供了一个有前途的方法。未来的研究可以从以下几个方面进一步发展：

探索更多任务类型：虽然该论文主要关注知识密集型推理任务，但ReAct也可以应用于其他类型的自然语言处理任务，例如对话系统和机器翻译。
提高行动空间的质量：当前的行动空间限制较大，无法满足复杂任务的需求。因此，未来的研究可以探索如何提高行动空间的质量，以便更好地支持推理和决策。
结合强化学习：ReAct目前是一种无监督的学习方法，但它仍然缺乏对于长期奖励的关注。因此，未来的研究可以考虑结合强化学习，以实现更好的长期规划和决策能力。

各模式Prompt举例

Original:

Act：

CoT:

ReAct:

可以感受一下ReAct 的Thought → Action → Observation模式。如需论文原文可以公众号留言，下一篇我们即将结合LangChain深度了解ReAct的实现，敬请期待~

53AI，企业落地大模型首选服务商

产品：场景落地咨询+大模型应用平台+行业解决方案

承诺：免费场景POC验证，效果验证后签署服务协议。零风险落地应用大模型，已交付160+中大型企业

相关资讯

2024-07-10

科研助力神器：Scholar GPT，百倍提升你的研究效率！

2024-07-09

Doc2X：一款功能超级强大的文档解析与转换工具

2024-07-06

我对多智能体协作过程自动演化架构设计

2024-07-06

可穿戴AI，底层逻辑的变化

2024-07-06

一文彻底搞懂Transformer - Word Embedding（词嵌入）

2024-07-06

AI动态 | 腾讯元宝AI搜索能力升级：深度搜索模式上线

2024-07-06

智能手表 + AI ，都已经这么智能了？？

2024-07-06

死磕10万卡GPU算力集群，腾讯星脉网络2.0有什么秘密武器？

了解更多

了解更多

160+中大型企业正在使用53AI

立即咨询预约演示

把握AI发展的机遇，共同探索、共同进步

2025-01-22

如何打造基于GenAI的员工服务机器人

2025-01-22

热点资讯

看大厂PM，如何玩转多个智能体开发平台

2025-06-17

53AI Hub重磅开源！让99%的智能体开发者赚到钱！

2025-06-17

DeepSeek R1-0528 小版本升级

2025-05-29

源神降临！阿里 Qwen3 全系发布，免费商用，消费级显卡就能跑！(深度解读 + 实战case)

2025-04-29

高效 Agents 构建指南

2025-05-23

分而治之：全面解析分布式分离 Inference 系统

2025-04-29

Qwen3发布: 4B干掉旧代 72B / Windsurf又增加新的免费计划

2025-04-29

忽视小模型和知识库，企业AI应用必将是死路一条

2025-05-07

CAG 与 RAG：哪种方法能带来性能更好的人工智能

2025-05-07

从RAG到CoT再到MCP，一文读懂AI Agent落地难题｜大模型研究

2025-05-07

大家都在问

Auto Agent：气宗还是剑宗？——Workflow 还是强大模型？

2025-07-13

“内卷”到向量空间：Qwen3-Embedding 是真香还是跟风？

2025-07-13

AI安全审计模型哪家好？

2025-07-13

n8n vs. Dify vs. Coze：新一代效率工具，谁是你的菜？

2025-07-13

AI Agent热潮来袭：中小微企业如何抓住新机遇？

2025-07-13

从谨慎检查到一键接受，TRAE 如何成为我的主力 IDE？

2025-07-10

垂直赛道 Agent 闷声发财指南：如何实现一年超千万营收？

2025-07-10

你的大脑真的在被AI“腐蚀”吗？

2025-07-10

热门标签

内容创作大模型技术个人提效 langchain llamaindex 多模态技术 RAG技术智能客服知识图谱模型微调 RAGFlow coze Dify Fastgpt Bisheng Qanything AI+汽车 AI+金融 AI+工业 AI+培训 AI+SaaS 提示词框架提示词技巧 AI+电商 AI面试数字员工 ChatBI 知识管理开源大模型智能营销智能硬件智能化改造 AI+医疗 MaxKB

应聘简历请发送至： ceo@53ai.com

友情链接：

CopyRight © 2012-2024 深圳市博思协创网络科技有限公司版权所有

粤ICP备17114055号

广州：广州市华景路37号(华景软件园)暨南大学科技大厦6楼（整层）

深圳：深圳市福田区泰然四路29号天安创新科技广场一期A座1204

上海：上海市浦东新区金新路58号1602室

微信扫码
和创始人交个朋友

联系我们

售前咨询

预约演示

微信扫码

添加专属顾问

回到顶部