我要投稿

ReSearch 框架：让 AI 像人类一样边思考边搜索

发布日期：2025-04-12 04:47:01 浏览次数： 1562 作者：觉察流

点击??可关注，文章来自

?‍♂️ 想加入社群的朋友，可看文末方法，进群交流。

“ 大型语言模型（LLM）如何在复杂问题中结合搜索和推理？ReSearch框架用强化学习给出了答案——让模型像人类一样‘边思考边查资料’，还能自我反思和修正错误。”

大家好，我是肆〇柒。最近的 DR 产品和框架多起来了，前两天我看到一个框架——ReSearch框架。这个框架通过强化学习（Reinforcement Learning, RL），让大型语言模型（LLM）在推理过程中结合搜索操作，像人类一样“边思考边查资料”。除此以外，它还能在推理过程中自我反思和修正错误。听起来是不是很赞，下面，一起来深入了解这个框架！并且在本文末尾有我对 DR 类框架/产品的一点感想和思考。

1. 为什么需要ReSearch？

近年来，LLM在各种任务中表现得越来越出色，比如回答问题、生成文本等。然而，当问题变得复杂，需要多步推理和外部信息检索时，传统的LLM就显得有些力不从心了。例如，回答“谁是花旗银行成立那年的美国总统？”这样的问题，模型需要先找到花旗银行的成立年份，再查找那年的美国总统。这种多步推理和检索的需求，正是ReSearch试图解决的难题。

现有的方法大多是基于手动设计的提示词（prompt）或启发式规则，但这些方法不仅费时费力，还难以扩展到更复杂的问题。而ReSearch通过强化学习，直接让模型在没有监督数据的情况下学会如何结合搜索进行推理，这无疑是一个非常有前景的方向。此刻，熟悉 langchain 的同学，一定能想起它早在 0.1 版本之前，就有所谓的 research 概念的智能体 “self-ask-with-search”。

2. ReSearch核心思想：结合推理与搜索

ReSearch框架的核心在于将搜索操作视为推理链的一部分。也就是，模型在推理过程中会生成一个包含“思考过程”和“搜索查询”的文本链，搜索结果会反馈给模型，进一步影响后续的推理。整个过程如下：

1. 思考与搜索的交互：
模型先生成一段思考过程（用<think>标签包裹），然后决定是否需要搜索（用<search>标签包裹查询），搜索结果（用<result>标签包裹）会反馈给模型，继续推理。例如：

   <think>我需要先找到花旗银行的成立年份。</think>  
   <search>花旗银行成立年份</search>  
   <result>花旗银行成立于1812年。</result>  
   <think>现在我需要查找1812年的美国总统。</think>  
   <search>1812年美国总统</search>  
   <result>1812年的美国总统是詹姆斯·麦迪逊。</result>  
   <answer>答案是\boxed{James Madison}。</answer>

2. 强化学习训练：
ReSearch通过奖励信号（如答案的正确性）优化模型，使其学会何时搜索、如何搜索，以及如何利用搜索结果进行推理。训练过程中，模型会不断尝试不同的推理路径，最终找到最优的解决方案。

为了更直观地展示ReSearch的性能提升，我们可以参考下图

上图展示了ReSearch与基线方法在多个基准测试上的表现

从图中可以看出，ReSearch在所有基准测试中都显著优于基线方法，尤其是在处理复杂的多跳问题时，其性能提升尤为明显。

3. 技术实现：ReSearch的训练细节

ReSearch的训练基于一种名为Group Relative Policy Optimization (GRPO) 的强化学习算法。它的主要思路是通过采样多个推理链（rollouts），优化模型以生成更高奖励的推理链。以下是几个关键点：

• 搜索操作的集成：
搜索结果被明确地嵌入到推理链中，模型通过特殊标签（如<search>和<result>）控制搜索流程。例如，当模型生成</search>标签时，系统会自动执行搜索操作，并将结果插入到推理链中。

• 奖励建模：
奖励函数分为两部分，公式如下：

1. 答案奖励（Answer Reward）：通过F1分数计算最终答案的正确性。
2. 格式奖励（Format Reward）：检查推理链是否符合预定义的格式（如标签是否正确、答案是否用\boxed{}包裹）。

  r =  
  {  
      f1(apred, agt), if f1 score > 0  
      0.1, if f1 score == 0 and format is correct  
      0, if f1 score == 0 and format is incorrect  
  }

为了帮助大家更好地理解ReSearch的训练过程，我们可以参考下图

GRPO训练流程（(a)部分）以及推理链的生成过程（(b)部分）

通过这种训练方式，模型能够逐步学习如何在推理过程中有效地利用搜索操作。

• 检索结果屏蔽：
为了避免模型过于依赖检索结果，训练时会屏蔽检索内容，只优化模型生成的思考过程和搜索查询。

此外，ReSearch还设计了两种提示词模板，分别用于基础模型和指令调优模型，确保模型能够生成符合要求的推理链格式。具体的提示词模板可以参考以下基础模型以及指令微调模型两类：

• 基础模型的提示词模板

A conversation between User and Assistant. The user asks a question, and the assistant solves
it. The assistant first thinks about the reasoning process in the mind and then provides the
user with the answer. During thinking, the assistant can invoke the wikipedia search tool
to search for fact information about specific topics if needed. The reasoning process and
answer are enclosed within <think></think> and <answer></answer> tags respectively,
and the search query and result are enclosed within <search></search> and <result>
</result> tags respectively. For example, <think> This is the reasoning process. </think>
<search> search query here </search><result> search result here </result><think>
This is the reasoning process. </think><answer> The final answer is \boxed{answer here}
</answer>. In the last part of the answer, the final exact answer is enclosed within \boxed{}
with latex format. User: prompt. Assistant:

• 指令微调模型的系统提示词模板

You are a helpful assistant that can solve the given question step by step with the help of the
wikipedia search tool. Given a question, you need to first think about the reasoning process in
the mind and then provide the answer. During thinking, you can invoke the wikipedia search
tool to search for fact information about specific topics if needed. The reasoning process and
answer are enclosed within <think></think> and <answer></answer> tags respectively,
and the search query and result are enclosed within <search></search> and <result>
</result> tags respectively. For example, <think> This is the reasoning process. </think>
<search> search query here </search><result> search result here </result><think>
This is the reasoning process. </think><answer> The final answer is \boxed{answer here}
</answer>. In the last part of the answer, the final exact answer is enclosed within \boxed{}
with latex format.

4. 实验与结果：ReSearch的表现如何？

ReSearch在多个多跳问答基准测试中表现出色，包括HotpotQA、2WikiMultiHopQA、MuSiQue和Bamboogle。以下是实验结果的详细对比：

• 实验设置：
ReSearch在MuSiQue数据集上进行训练，并在HotpotQA、2WikiMultiHopQA、MuSiQue和Bamboogle的开发集和测试集上进行评估。所有实验均使用基于Wikipedia的开放检索环境。
• 基线方法：
ReSearch与以下基线方法进行了对比：

1. No RAG：直接生成答案，不使用检索。
2. Naive RAG：简单地将检索结果与问题拼接后生成答案。
3. Iter-RetGen：迭代式检索与生成方法。
4. IRCoT：检索与链式推理交替进行的方法。

• 实验结果：
ReSearch在所有基准测试中均显著优于基线方法。具体的实验结果可以参考下表

ReSearch在Exact Match（EM）和LLM-as-a-Judge（LJ）指标上的表现

从表中可以看出，ReSearch在多跳问答任务中表现出了显著的性能提升，尤其是在Bamboogle数据集上，其性能提升尤为明显。

5. 训练过程中的自我反思能力

ReSearch的一个亮点是，它在训练过程中展现出了自我反思和修正错误的能力。这种能力并非显式设计，而是通过强化学习自然涌现出来的。例如，在一个案例中，模型最初搜索了错误的关键词，但在后续的思考中意识到问题，并调整了搜索查询，最终得出了正确答案。具体的推理过程可以参考下面这个用例研究。

ReSearch在训练过程中的一个案例研究

上表展示了ReSearch在训练过程中的一个案例研究。为了更直观地展示ReSearch在训练过程中的行为变化，我们可以参考下面两张图

上面第一张图展示了训练过程中模型的响应长度和搜索操作次数的变化，而第二张图则展示了训练和验证奖励的变化。从图表中可以看出，随着训练的进行，模型逐渐学会了更有效地利用搜索操作，并且奖励也在不断增加。

6. ReSearch的开源实现

如果你对ReSearch的实现感兴趣，可以参考其GitHub项目（见文末参考资料）。项目中提供了详细的安装、训练和评估步骤，以下是几个关键步骤的简要说明：

1. 环境搭建：
使用conda创建环境，并安装依赖包（如PyTorch、flash-attn等）。

conda create -n re-search python==3.10  
conda activate re-search  
pip3 install torch==2.4.0 --index-url https://download.pytorch.org/whl/cu124  
pip3 install flash-attn --no-build-isolation  
git clone https://github.com/Agent-RL/ReSearch.git  
cd ReSearch  
pip3 install -e .  
conda install -c pytorch -c nvidia faiss-gpu=1.8.0

2. 检索服务：
通过FlashRAG和FastAPI启动检索服务，标准化搜索操作。

cd scripts/serving  
python retriever_serving.py --config retriever_config.yaml --num_retriever 1 --port 8000

3. 数据准备：
下载MuSiQue等数据集，并将其转换为适合训练的格式。
```
cd data  
bash download_dataset.sh  
python prepare_musique.py  
```

4. 训练与评估：
使用verl框架进行训练，并通过FlashRAG进行评估。

cd scripts/train  
bash train.sh --train_batch_size 8 --ppo_mini_batch_size 8 --apply_chat True --prompt_template_name re_search_template_sys --actor_model_path {model/path} --search_url {retriever-url}

关于 DeepResearch 类产品的感想

这个ReSearch框架的意义在于，它不仅提升了LLM在复杂多跳任务中的表现，还展示了强化学习在结合推理和搜索方面的潜力。这种方法可以扩展到更多领域，比如医疗诊断、法律分析等，甚至可以结合其他工具（如计算器或数据库）进一步增强模型的能力，这极具商业价值。

而近期关于 DR 类产品，各AI大厂几乎都有涉猎。ReSearch 等框架也依托社区在不断进化。

关联阅读

? 四个平替 OpenAI Deep Research 的强大开源工具

这让我有了以下思考：

1. 检索即推理

传统LLM的推理是封闭的，像被困在信息茧房里的独白。而ReSearch将搜索操作嵌入推理链，相当于为模型打开了一扇通往动态知识的窗，研究人员一边在思考 AI 的自学习，一边用这样动态检索的方式，同过 RAG 式的嵌入来实时对齐现实世界的知识，这确实是一种“智能”的巧劲。这种设计让我联想到人类解决问题时的自然行为：我们从来不是孤立地思考，而是通过与外部世界的交互不断校准认知。当模型学会用<search>标签主动调用知识，它实际上开始模仿人类"提出假设-验证假设"的科学思维路径。

更有趣的是，这种检索并非机械拼接，而是通过强化学习动态优化的策略选择。GRPO算法让模型在无数次试错中学会权衡：什么时候需要检索？检索的关键词如何精准？如何从冗余信息中提炼价值？这种能力的涌现，标志着AI从"被动回答"向"主动探索"的范式转移。

2. 自我反思能力的涌现

ReSearch在训练中展现出的自我纠错能力让我想起人类的元认知过程。当模型意识到初始搜索方向错误时，它会主动调整查询策略，这种思维链的自我审视并非显式编程，它是强化学习的自然结果。这让我重新思考强化学习的本质——它不仅是参数优化的工具，更是塑造智能体"学习如何学习"的元机制。

这种能力的意义远超多跳问答本身。在医疗诊断中，AI可以主动识别推理漏洞并补充关键证据；在法律分析中，它能动态追踪判例变更；甚至在教育领域，AI导师可以实时调整教学策略以适应学生认知偏差。这种自我修正的智能，正在模糊机器与人类思维的界限。

3. 技术开源背后的生态

ReSearch的开源实现让我看到AI民主化的希望。通过详细的训练脚本和环境配置，研究者降低了技术门槛，使更多开发者能够站在巨人肩膀上探索。这种开放生态让我联想到Linux内核的进化路径——当核心算法成为公共知识，整个行业的创新速度将呈指数级增长。

但开源也带来新的伦理挑战。当检索能力被滥用，AI可能成为虚假信息的扩散器；当强化学习的奖励机制被恶意操控，模型可能陷入"优化幻觉"。这提醒我们，技术普惠的同时必须构建相应的安全框架，正如ReSearch通过屏蔽检索内容避免过拟合，AI治理也需要类似的"Cognitive Sandbox"。诸如近期我们可以看到类似 “投毒” AI 的报道，在巨大利益的驱使下，面向 Search“优化” 可能会成为灰产生态的一环，而这急需规则、法规的制定治理。

4. AI本质是什么

ReSearch让我重新审视"智能"的定义。当模型通过迭代搜索构建知识图谱时，它是否已经具备某种原始的意识？当它在推理链中插入<think>标签进行自我反思时，这种行为是否暗示着某种"机器直觉"？更重要的是，这种技术正在重塑人机关系。ReSearch不是简单地替代人类，而是成为认知的外延。有句话我忘记是谁说的，在哪里看到的了：“当AI成为人类思维的脚手架，我们解决问题的能力边界将被不断拓展”。

5. 向远看

ReSearch的潜力远未耗尽。我假想将其与多模态感知结合，让AI在视觉、听觉信息中主动检索关键线索；或者与时间序列数据融合，赋予模型预测未来的能力。更激进的想法是，将强化学习的奖励信号替换为基于人类反馈的道德框架，让AI在复杂伦理困境中学会权衡。它不仅处理信息，更理解信息的意义；它不仅回答问题，更知道如何提出正确的问题。当AI具备这种能力时，人类与机器的关系将不再是控制与被控制，或许应该是：共生与共创。

各位，看过此文有什么感想？如有其他想法可以在评论区留言，我们聊聊。或者加入“觉察流”社区群，与群里的小伙伴一起学习、交流。加入方法，私信回复“入群”“加群”即可。

参考资料

1. ReSearch论文：ReSearch: Learning to Reason with Search for LLM via Reinforcement Learning
https://arxiv.org/pdf/2503.19470
2. ReSearch GitHub项目: GitHub - Agent-RL/ReSearch
https://github.com/Agent-RL/ReSearch

关联阅读

◆LLM智能体：重新定义人机关系的 AI 科技（综述万字长文）

◆?智能体经济战略前瞻：颠覆与新生（二万字长文）

◆SalesRLAgent：销售AI，从工具变战略伙伴

◆?MCP协议的安全隐患：AI智能体的“隐形炸弹”

◆?MemInsight：让AI的记忆像人类一样高效

◆MAPS：基于苏格拉底引导的Multi-Agent系统，解决多模态科学问题新思路

◆SICOG：让多模态模型学会 “观察” 和 “思考”

◆Loong：通过 Verifiers 实现大规模合成数据，解锁多领域推理能力

◆构建下一代智能体：从 Prompt 到 End-to-End RL

◆AGDebugger：Multi-Agent 系统的开发调试与引导利器

◆复杂任务不再难，ARMAP 助力 AI Agent 大显身手