微信扫码
添加专属顾问
我要投稿
AI如何像人类一样边思考边搜索?ReSearch框架给出了革命性的答案。核心内容:1. ReSearch框架背景与必要性2. ReSearch核心思想:结合推理与搜索操作3. ReSearch框架的具体应用与实践
?♂️ 想加入社群的朋友,可看文末方法,进群交流。
“ 大型语言模型(LLM)如何在复杂问题中结合搜索和推理?ReSearch框架用强化学习给出了答案——让模型像人类一样‘边思考边查资料’,还能自我反思和修正错误。”
大家好,我是肆〇柒。最近的 DR 产品和框架多起来了,前两天我看到一个框架——ReSearch框架。这个框架通过强化学习(Reinforcement Learning, RL),让大型语言模型(LLM)在推理过程中结合搜索操作,像人类一样“边思考边查资料”。除此以外,它还能在推理过程中自我反思和修正错误。听起来是不是很赞,下面,一起来深入了解这个框架!并且在本文末尾有我对 DR 类框架/产品的一点感想和思考。
近年来,LLM在各种任务中表现得越来越出色,比如回答问题、生成文本等。然而,当问题变得复杂,需要多步推理和外部信息检索时,传统的LLM就显得有些力不从心了。例如,回答“谁是花旗银行成立那年的美国总统?”这样的问题,模型需要先找到花旗银行的成立年份,再查找那年的美国总统。这种多步推理和检索的需求,正是ReSearch试图解决的难题。
现有的方法大多是基于手动设计的提示词(prompt)或启发式规则,但这些方法不仅费时费力,还难以扩展到更复杂的问题。而ReSearch通过强化学习,直接让模型在没有监督数据的情况下学会如何结合搜索进行推理,这无疑是一个非常有前景的方向。此刻,熟悉 langchain 的同学,一定能想起它早在 0.1 版本之前,就有所谓的 research 概念的智能体 “self-ask-with-search”。
ReSearch框架的核心在于将搜索操作视为推理链的一部分。也就是,模型在推理过程中会生成一个包含“思考过程”和“搜索查询”的文本链,搜索结果会反馈给模型,进一步影响后续的推理。整个过程如下:
<think>
标签包裹),然后决定是否需要搜索(用<search>
标签包裹查询),搜索结果(用<result>
标签包裹)会反馈给模型,继续推理。例如: <think>我需要先找到花旗银行的成立年份。</think>
<search>花旗银行成立年份</search>
<result>花旗银行成立于1812年。</result>
<think>现在我需要查找1812年的美国总统。</think>
<search>1812年美国总统</search>
<result>1812年的美国总统是詹姆斯·麦迪逊。</result>
<answer>答案是\boxed{James Madison}。</answer>
为了更直观地展示ReSearch的性能提升,我们可以参考下图
从图中可以看出,ReSearch在所有基准测试中都显著优于基线方法,尤其是在处理复杂的多跳问题时,其性能提升尤为明显。
ReSearch的训练基于一种名为Group Relative Policy Optimization (GRPO) 的强化学习算法。它的主要思路是通过采样多个推理链(rollouts),优化模型以生成更高奖励的推理链。以下是几个关键点:
<search>
和<result>
)控制搜索流程。例如,当模型生成</search>
标签时,系统会自动执行搜索操作,并将结果插入到推理链中。\boxed{}
包裹)。 r =
{
f1(apred, agt), if f1 score > 0
0.1, if f1 score == 0 and format is correct
0, if f1 score == 0 and format is incorrect
}
为了帮助大家更好地理解ReSearch的训练过程,我们可以参考下图
通过这种训练方式,模型能够逐步学习如何在推理过程中有效地利用搜索操作。
此外,ReSearch还设计了两种提示词模板,分别用于基础模型和指令调优模型,确保模型能够生成符合要求的推理链格式。具体的提示词模板可以参考以下基础模型以及指令微调模型两类:
A conversation between User and Assistant. The user asks a question, and the assistant solves
it. The assistant first thinks about the reasoning process in the mind and then provides the
user with the answer. During thinking, the assistant can invoke the wikipedia search tool
to search for fact information about specific topics if needed. The reasoning process and
answer are enclosed within <think></think> and <answer></answer> tags respectively,
and the search query and result are enclosed within <search></search> and <result>
</result> tags respectively. For example, <think> This is the reasoning process. </think>
<search> search query here </search><result> search result here </result><think>
This is the reasoning process. </think><answer> The final answer is \boxed{answer here}
</answer>. In the last part of the answer, the final exact answer is enclosed within \boxed{}
with latex format. User: prompt. Assistant:
You are a helpful assistant that can solve the given question step by step with the help of the
wikipedia search tool. Given a question, you need to first think about the reasoning process in
the mind and then provide the answer. During thinking, you can invoke the wikipedia search
tool to search for fact information about specific topics if needed. The reasoning process and
answer are enclosed within <think></think> and <answer></answer> tags respectively,
and the search query and result are enclosed within <search></search> and <result>
</result> tags respectively. For example, <think> This is the reasoning process. </think>
<search> search query here </search><result> search result here </result><think>
This is the reasoning process. </think><answer> The final answer is \boxed{answer here}
</answer>. In the last part of the answer, the final exact answer is enclosed within \boxed{}
with latex format.
ReSearch在多个多跳问答基准测试中表现出色,包括HotpotQA、2WikiMultiHopQA、MuSiQue和Bamboogle。以下是实验结果的详细对比:
从表中可以看出,ReSearch在多跳问答任务中表现出了显著的性能提升,尤其是在Bamboogle数据集上,其性能提升尤为明显。
ReSearch的一个亮点是,它在训练过程中展现出了自我反思和修正错误的能力。这种能力并非显式设计,而是通过强化学习自然涌现出来的。例如,在一个案例中,模型最初搜索了错误的关键词,但在后续的思考中意识到问题,并调整了搜索查询,最终得出了正确答案。具体的推理过程可以参考下面这个用例研究。
上表展示了ReSearch在训练过程中的一个案例研究。为了更直观地展示ReSearch在训练过程中的行为变化,我们可以参考下面两张图
上面第一张图展示了训练过程中模型的响应长度和搜索操作次数的变化,而第二张图则展示了训练和验证奖励的变化。从图表中可以看出,随着训练的进行,模型逐渐学会了更有效地利用搜索操作,并且奖励也在不断增加。
如果你对ReSearch的实现感兴趣,可以参考其GitHub项目(见文末参考资料)。项目中提供了详细的安装、训练和评估步骤,以下是几个关键步骤的简要说明:
conda create -n re-search python==3.10
conda activate re-search
pip3 install torch==2.4.0 --index-url https://download.pytorch.org/whl/cu124
pip3 install flash-attn --no-build-isolation
git clone https://github.com/Agent-RL/ReSearch.git
cd ReSearch
pip3 install -e .
conda install -c pytorch -c nvidia faiss-gpu=1.8.0
cd scripts/serving
python retriever_serving.py --config retriever_config.yaml --num_retriever 1 --port 8000
cd data
bash download_dataset.sh
python prepare_musique.py
cd scripts/train
bash train.sh --train_batch_size 8 --ppo_mini_batch_size 8 --apply_chat True --prompt_template_name re_search_template_sys --actor_model_path {model/path} --search_url {retriever-url}
这个ReSearch框架的意义在于,它不仅提升了LLM在复杂多跳任务中的表现,还展示了强化学习在结合推理和搜索方面的潜力。这种方法可以扩展到更多领域,比如医疗诊断、法律分析等,甚至可以结合其他工具(如计算器或数据库)进一步增强模型的能力,这极具商业价值。
而近期关于 DR 类产品,各AI大厂几乎都有涉猎。ReSearch 等框架也依托社区在不断进化。
关联阅读
这让我有了以下思考:
1. 检索即推理
传统LLM的推理是封闭的,像被困在信息茧房里的独白。而ReSearch将搜索操作嵌入推理链,相当于为模型打开了一扇通往动态知识的窗,研究人员一边在思考 AI 的自学习,一边用这样动态检索的方式,同过 RAG 式的嵌入来实时对齐现实世界的知识,这确实是一种“智能”的巧劲。这种设计让我联想到人类解决问题时的自然行为:我们从来不是孤立地思考,而是通过与外部世界的交互不断校准认知。当模型学会用<search>
标签主动调用知识,它实际上开始模仿人类"提出假设-验证假设"的科学思维路径。
更有趣的是,这种检索并非机械拼接,而是通过强化学习动态优化的策略选择。GRPO算法让模型在无数次试错中学会权衡:什么时候需要检索?检索的关键词如何精准?如何从冗余信息中提炼价值?这种能力的涌现,标志着AI从"被动回答"向"主动探索"的范式转移。
2. 自我反思能力的涌现
ReSearch在训练中展现出的自我纠错能力让我想起人类的元认知过程。当模型意识到初始搜索方向错误时,它会主动调整查询策略,这种思维链的自我审视并非显式编程,它是强化学习的自然结果。这让我重新思考强化学习的本质——它不仅是参数优化的工具,更是塑造智能体"学习如何学习"的元机制。
这种能力的意义远超多跳问答本身。在医疗诊断中,AI可以主动识别推理漏洞并补充关键证据;在法律分析中,它能动态追踪判例变更;甚至在教育领域,AI导师可以实时调整教学策略以适应学生认知偏差。这种自我修正的智能,正在模糊机器与人类思维的界限。
3. 技术开源背后的生态
ReSearch的开源实现让我看到AI民主化的希望。通过详细的训练脚本和环境配置,研究者降低了技术门槛,使更多开发者能够站在巨人肩膀上探索。这种开放生态让我联想到Linux内核的进化路径——当核心算法成为公共知识,整个行业的创新速度将呈指数级增长。
但开源也带来新的伦理挑战。当检索能力被滥用,AI可能成为虚假信息的扩散器;当强化学习的奖励机制被恶意操控,模型可能陷入"优化幻觉"。这提醒我们,技术普惠的同时必须构建相应的安全框架,正如ReSearch通过屏蔽检索内容避免过拟合,AI治理也需要类似的"Cognitive Sandbox"。诸如近期我们可以看到类似 “投毒” AI 的报道,在巨大利益的驱使下,面向 Search“优化” 可能会成为灰产生态的一环,而这急需规则、法规的制定治理。
4. AI本质是什么
ReSearch让我重新审视"智能"的定义。当模型通过迭代搜索构建知识图谱时,它是否已经具备某种原始的意识?当它在推理链中插入<think>
标签进行自我反思时,这种行为是否暗示着某种"机器直觉"?更重要的是,这种技术正在重塑人机关系。ReSearch不是简单地替代人类,而是成为认知的外延。有句话我忘记是谁说的,在哪里看到的了:“当AI成为人类思维的脚手架,我们解决问题的能力边界将被不断拓展”。
5. 向远看
ReSearch的潜力远未耗尽。我假想将其与多模态感知结合,让AI在视觉、听觉信息中主动检索关键线索;或者与时间序列数据融合,赋予模型预测未来的能力。更激进的想法是,将强化学习的奖励信号替换为基于人类反馈的道德框架,让AI在复杂伦理困境中学会权衡。它不仅处理信息,更理解信息的意义;它不仅回答问题,更知道如何提出正确的问题。当AI具备这种能力时,人类与机器的关系将不再是控制与被控制,或许应该是:共生与共创。
各位,看过此文有什么感想?如有其他想法可以在评论区留言,我们聊聊。或者加入“觉察流”社区群,与群里的小伙伴一起学习、交流。加入方法,私信回复“入群”“加群”即可。
关联阅读
◆LLM智能体:重新定义人机关系的 AI 科技(综述万字长文)
◆ScoreFlow:让 AI Agent 协作更智能、更高效
◆?Agentic Workflows:让工作流更智能、更灵活
◆?开源Agent通信协议对比分析:MCP、ANP、Agora、agents.json、LMOS、AITP (万字长文)
◆使用 PydanticAI 框架快速构建 Multi-Agent 系统
◆? CHRONOS:AI 迭代自我问答,精准构建新闻时间线
◆?AI学会自我反思?Agent-R 使用蒙特卡洛树搜索(MCTS)自我训练自动纠错,让AI更聪明
◆为AI Agent设定边界:自然语言权限与结构化权限的结合
◆Cline 3.3 新版本:编程界的 “安全卫士” 与 “效率先锋”
注:本文论文由AI辅助翻译,内容由人工整理/审核发出
欢迎点 、加
、关注。公号加⭐️精彩不错过
我是肆〇柒?,一名热爱AI的互联网人。在这里,我分享自己的观察与思考,希望我的探索能激发同样热爱科技与生活的你,为你带来灵感与思考。
期待我们的不期而遇。点击??关注
53AI,企业落地大模型首选服务商
产品:场景落地咨询+大模型应用平台+行业解决方案
承诺:免费场景POC验证,效果验证后签署服务协议。零风险落地应用大模型,已交付160+中大型企业
2024-10-27
2024-09-04
2024-07-18
2024-05-05
2024-06-20
2024-06-13
2024-07-09
2024-07-09
2024-05-19
2024-07-07