微信扫码
与创始人交个朋友
我要投稿
“ReAct就是可以让LLMs像人类一样可以边推理边行动的一种动态推理模式,传统的推理和行动分离的模式会导致无法应对实时变化的环境,直接端到端的推理由于没有外界行动的反馈更容易造成错误决策,而使用ReAct可以及时得到行动反馈,做出稳健的决策。
与之前将LLM推理和行动两方面的能力作为单独的主题研究不同,本研究中探索了使用 LLM 以交替方式同时生成推理轨迹和特定于任务的动作,从而允许两者之间产生更大的协同作用:推理轨迹有助于模型推断、跟踪和更新动作计划以及处理异常情况,而动作则使它能够与知识库或环境等外部来源进行交互并收集额外信息。
在问答(HotpotQA)和事实验证(Fever)任务中,ReAct 通过与简单的维基百科 API 进行交互,克服了思维链推理中的普遍问题幻觉和错误传播,并生成比没有推理轨迹的基线更易于理解的人类般的任务解决路径。此外,在两个交互式决策制定基准 ALFWorld 和 WebShop 中,ReAct 在仅用一个或两个上下文示例的情况下,分别以绝对成功率 34% 和 10% 超越了模仿学习和强化学习方法。
人类智能的独特之处在于,能够无缝地将任务导向的行为与言语推理相结合。这种“行动”和“推理”的紧密结合使得人类能够在新的情况下快速学习新任务,即使面临看不见的情况或信息不确定性也能做出稳健的决策或推理。
在LLM支持的自主系统中也可以采用此类的交互式决策方式。
本文进行了以下三个对比实验:
第一个实验是针对HotpotQA和Fever两个阅读理解任务的比较。在这个实验中,作者使用了PaLM-540B作为基础模型,并比较了四种不同的提示方法(标准提示、CoT提示、Act提示和ReAct提示)的效果。结果表明,ReAct提示比Act提示表现更好,在这两个任务上都取得了更好的准确率。
第二个实验是对ReAct和CoT两种提示方法的比较。在这个实验中,作者比较了ReAct提示和CoT提示在HotpotQA和Fever两个任务上的效果。结果表明,ReAct提示在Fever任务上表现略好于CoT提示,但在HotpotQA任务上略微落后于CoT提示。
第三个实验是在ALFWorld和WebShop两个决策制定任务上的比较。在这个实验中,作者使用了随机标注的轨迹来提示模型,比较了Act提示和ReAct提示在这两个任务上的效果。结果表明,ReAct提示在这两个任务上都表现得更好,特别是在WebShop任务上,ReAct提示的表现甚至超过了现有的模仿学习方法。
ReAct有以下几个优点:
ReAct目前是一种无监督的学习方法,仍然缺乏对于长期奖励的关注。作者表示未来的研究将考虑结合强化学习,以实现更好的长期规划和决策能力。
53AI,企业落地应用大模型首选服务商
产品:大模型应用平台+智能体定制开发+落地咨询服务
承诺:先做场景POC验证,看到效果再签署服务协议。零风险落地应用大模型,已交付160+中大型企业
2024-05-28
2024-04-26
2024-08-21
2024-04-11
2024-08-13
2024-07-09
2024-07-18
2024-10-25
2024-07-01
2024-06-17