支持私有化部署
AI知识库

53AI知识库

学习大模型的前沿技术与行业应用场景


ReSearch 框架:让 AI 像人类一样边思考边搜索

发布日期:2025-04-12 04:47:01 浏览次数: 1562 作者:觉察流
推荐语

AI如何像人类一样边思考边搜索?ReSearch框架给出了革命性的答案。

核心内容:
1. ReSearch框架背景与必要性
2. ReSearch核心思想:结合推理与搜索操作
3. ReSearch框架的具体应用与实践

杨芳贤
53A创始人/腾讯云(TVP)最具价值专家
点击??可关注,文章来自

?‍♂️ 想加入社群的朋友,可看文末方法,进群交流。



 大型语言模型(LLM)如何在复杂问题中结合搜索和推理?ReSearch框架用强化学习给出了答案——让模型像人类一样‘边思考边查资料’,还能自我反思和修正错误。


大家好,我是肆〇柒。最近的 DR 产品和框架多起来了,前两天我看到一个框架——ReSearch框架。这个框架通过强化学习(Reinforcement Learning, RL),让大型语言模型(LLM)在推理过程中结合搜索操作,像人类一样“边思考边查资料”。除此以外,它还能在推理过程中自我反思和修正错误。听起来是不是很赞,下面,一起来深入了解这个框架!并且在本文末尾有我对 DR 类框架/产品的一点感想和思考。

1. 为什么需要ReSearch?

近年来,LLM在各种任务中表现得越来越出色,比如回答问题、生成文本等。然而,当问题变得复杂,需要多步推理和外部信息检索时,传统的LLM就显得有些力不从心了。例如,回答“谁是花旗银行成立那年的美国总统?”这样的问题,模型需要先找到花旗银行的成立年份,再查找那年的美国总统。这种多步推理和检索的需求,正是ReSearch试图解决的难题。

现有的方法大多是基于手动设计的提示词(prompt)或启发式规则,但这些方法不仅费时费力,还难以扩展到更复杂的问题。而ReSearch通过强化学习,直接让模型在没有监督数据的情况下学会如何结合搜索进行推理,这无疑是一个非常有前景的方向。此刻,熟悉 langchain 的同学,一定能想起它早在 0.1 版本之前,就有所谓的 research 概念的智能体 “self-ask-with-search”。

2. ReSearch核心思想:结合推理与搜索

ReSearch框架的核心在于将搜索操作视为推理链的一部分。也就是,模型在推理过程中会生成一个包含“思考过程”和“搜索查询”的文本链,搜索结果会反馈给模型,进一步影响后续的推理。整个过程如下:

  1. 1. 思考与搜索的交互
    模型先生成一段思考过程(用<think>标签包裹),然后决定是否需要搜索(用<search>标签包裹查询),搜索结果(用<result>标签包裹)会反馈给模型,继续推理。例如:


   <think>我需要先找到花旗银行的成立年份。</think>  
   <search>花旗银行成立年份</search>  
   <result>花旗银行成立于1812年。</result>  
   <think>现在我需要查找1812年的美国总统。</think>  
   <search>1812年美国总统</search>  
   <result>1812年的美国总统是詹姆斯·麦迪逊。</result>  
   <answer>答案是\boxed{James Madison}。</answer>  

  1. 2. 强化学习训练
    ReSearch通过奖励信号(如答案的正确性)优化模型,使其学会何时搜索、如何搜索,以及如何利用搜索结果进行推理。训练过程中,模型会不断尝试不同的推理路径,最终找到最优的解决方案。

为了更直观地展示ReSearch的性能提升,我们可以参考下图

上图展示了ReSearch与基线方法在多个基准测试上的表现

从图中可以看出,ReSearch在所有基准测试中都显著优于基线方法,尤其是在处理复杂的多跳问题时,其性能提升尤为明显。

3. 技术实现:ReSearch的训练细节

ReSearch的训练基于一种名为Group Relative Policy Optimization (GRPO) 的强化学习算法。它的主要思路是通过采样多个推理链(rollouts),优化模型以生成更高奖励的推理链。以下是几个关键点:

  • • 搜索操作的集成
    搜索结果被明确地嵌入到推理链中,模型通过特殊标签(如<search><result>)控制搜索流程。例如,当模型生成</search>标签时,系统会自动执行搜索操作,并将结果插入到推理链中。
  • • 奖励建模
    奖励函数分为两部分,公式如下:
  1. 1. 答案奖励(Answer Reward):通过F1分数计算最终答案的正确性。
  2. 2. 格式奖励(Format Reward):检查推理链是否符合预定义的格式(如标签是否正确、答案是否用\boxed{}包裹)。
  r =  
  {  
      f1(apred, agt), if f1 score > 0  
      0.1, if f1 score == 0 and format is correct  
      0, if f1 score == 0 and format is incorrect  
  }  

为了帮助大家更好地理解ReSearch的训练过程,我们可以参考下图

GRPO训练流程((a)部分)以及推理链的生成过程((b)部分)

通过这种训练方式,模型能够逐步学习如何在推理过程中有效地利用搜索操作。

  • • 检索结果屏蔽
    为了避免模型过于依赖检索结果,训练时会屏蔽检索内容,只优化模型生成的思考过程和搜索查询。

此外,ReSearch还设计了两种提示词模板,分别用于基础模型和指令调优模型,确保模型能够生成符合要求的推理链格式。具体的提示词模板可以参考以下基础模型以及指令微调模型两类:

  • • 基础模型的提示词模板
A conversation between User and Assistant. The user asks a question, and the assistant solves
it. The assistant first thinks about the reasoning process in the mind and then provides the
user with the answer. During thinking, the assistant can invoke the wikipedia search tool
to search for fact information about specific topics if needed. The reasoning process and
answer are enclosed within <think></think> and <answer></answer> tags respectively,
and the search query and result are enclosed within <search></search> and <result>
</result> tags respectively. For example, <think> This is the reasoning process. </think>
<search> search query here </search><result> search result here </result><think>
This is the reasoning process. </think><answer> The final answer is \boxed{answer here}
</answer>. In the last part of the answer, the final exact answer is enclosed within \boxed{}
with latex format. User: prompt. Assistant:
  • • 指令微调模型的系统提示词模板
You are a helpful assistant that can solve the given question step by step with the help of the
wikipedia search tool. Given a question, you need to first think about the reasoning process in
the mind and then provide the answer. During thinking, you can invoke the wikipedia search
tool to search for fact information about specific topics if needed. The reasoning process and
answer are enclosed within <think></think> and <answer></answer> tags respectively,
and the search query and result are enclosed within <search></search> and <result>
</result> tags respectively. For example, <think> This is the reasoning process. </think>
<search> search query here </search><result> search result here </result><think>
This is the reasoning process. </think><answer> The final answer is \boxed{answer here}
</answer>. In the last part of the answer, the final exact answer is enclosed within \boxed{}
with latex format.

4. 实验与结果:ReSearch的表现如何?

ReSearch在多个多跳问答基准测试中表现出色,包括HotpotQA、2WikiMultiHopQA、MuSiQue和Bamboogle。以下是实验结果的详细对比:

  •  实验设置
    ReSearch在MuSiQue数据集上进行训练,并在HotpotQA、2WikiMultiHopQA、MuSiQue和Bamboogle的开发集和测试集上进行评估。所有实验均使用基于Wikipedia的开放检索环境。
  • • 基线方法
    ReSearch与以下基线方法进行了对比:
  1. 1. No RAG:直接生成答案,不使用检索。
  2. 2. Naive RAG:简单地将检索结果与问题拼接后生成答案。
  3. 3. Iter-RetGen:迭代式检索与生成方法。
  4. 4. IRCoT:检索与链式推理交替进行的方法。
  • • 实验结果
    ReSearch在所有基准测试中均显著优于基线方法。具体的实验结果可以参考下表
  • ReSearch在Exact Match(EM)和LLM-as-a-Judge(LJ)指标上的表现

    从表中可以看出,ReSearch在多跳问答任务中表现出了显著的性能提升,尤其是在Bamboogle数据集上,其性能提升尤为明显。

    5. 训练过程中的自我反思能力

    ReSearch的一个亮点是,它在训练过程中展现出了自我反思和修正错误的能力。这种能力并非显式设计,而是通过强化学习自然涌现出来的。例如,在一个案例中,模型最初搜索了错误的关键词,但在后续的思考中意识到问题,并调整了搜索查询,最终得出了正确答案。具体的推理过程可以参考下面这个用例研究。

    ReSearch在训练过程中的一个案例研究

    上表展示了ReSearch在训练过程中的一个案例研究。为了更直观地展示ReSearch在训练过程中的行为变化,我们可以参考下面两张图

    上面第一张图展示了训练过程中模型的响应长度和搜索操作次数的变化,而第二张图则展示了训练和验证奖励的变化。从图表中可以看出,随着训练的进行,模型逐渐学会了更有效地利用搜索操作,并且奖励也在不断增加。

    6. ReSearch的开源实现

    如果你对ReSearch的实现感兴趣,可以参考其GitHub项目(见文末参考资料)。项目中提供了详细的安装、训练和评估步骤,以下是几个关键步骤的简要说明:

    1. 1. 环境搭建
      使用conda创建环境,并安装依赖包(如PyTorch、flash-attn等)。
      conda create -n re-search python==3.10  
      conda activate re-search  
      pip3 install torch==2.4.0 --index-url https://download.pytorch.org/whl/cu124  
      pip3 install flash-attn --no-build-isolation  
      git clone https://github.com/Agent-RL/ReSearch.git  
      cd ReSearch  
      pip3 install -e .  
      conda install -c pytorch -c nvidia faiss-gpu=1.8.0  
    2. 2. 检索服务
      通过FlashRAG和FastAPI启动检索服务,标准化搜索操作。
      cd scripts/serving  
      python retriever_serving.py --config retriever_config.yaml --num_retriever 1 --port 8000  
    3. 3. 数据准备
      下载MuSiQue等数据集,并将其转换为适合训练的格式。
      cd data  
      bash download_dataset.sh  
      python prepare_musique.py  
    4. 4. 训练与评估
      使用verl框架进行训练,并通过FlashRAG进行评估。
      cd scripts/train  
      bash train.sh --train_batch_size 8 --ppo_mini_batch_size 8 --apply_chat True --prompt_template_name re_search_template_sys --actor_model_path {model/path} --search_url {retriever-url}  

    关于 DeepResearch 类产品的感想

    这个ReSearch框架的意义在于,它不仅提升了LLM在复杂多跳任务中的表现,还展示了强化学习在结合推理和搜索方面的潜力。这种方法可以扩展到更多领域,比如医疗诊断、法律分析等,甚至可以结合其他工具(如计算器或数据库)进一步增强模型的能力,这极具商业价值。

    而近期关于 DR 类产品,各AI大厂几乎都有涉猎。ReSearch 等框架也依托社区在不断进化。



    关联阅读



    四个平替 OpenAI Deep Research 的强大开源工具

    这让我有了以下思考:

    1. 检索即推理

    传统LLM的推理是封闭的,像被困在信息茧房里的独白。而ReSearch将搜索操作嵌入推理链,相当于为模型打开了一扇通往动态知识的窗,研究人员一边在思考 AI 的自学习,一边用这样动态检索的方式,同过 RAG 式的嵌入来实时对齐现实世界的知识,这确实是一种“智能”的巧劲。这种设计让我联想到人类解决问题时的自然行为:我们从来不是孤立地思考,而是通过与外部世界的交互不断校准认知。当模型学会用<search>标签主动调用知识,它实际上开始模仿人类"提出假设-验证假设"的科学思维路径。

    更有趣的是,这种检索并非机械拼接,而是通过强化学习动态优化的策略选择。GRPO算法让模型在无数次试错中学会权衡:什么时候需要检索?检索的关键词如何精准?如何从冗余信息中提炼价值?这种能力的涌现,标志着AI从"被动回答"向"主动探索"的范式转移。

    2. 自我反思能力的涌现

    ReSearch在训练中展现出的自我纠错能力让我想起人类的元认知过程。当模型意识到初始搜索方向错误时,它会主动调整查询策略,这种思维链的自我审视并非显式编程,它是强化学习的自然结果。这让我重新思考强化学习的本质——它不仅是参数优化的工具,更是塑造智能体"学习如何学习"的元机制。

    这种能力的意义远超多跳问答本身。在医疗诊断中,AI可以主动识别推理漏洞并补充关键证据;在法律分析中,它能动态追踪判例变更;甚至在教育领域,AI导师可以实时调整教学策略以适应学生认知偏差。这种自我修正的智能,正在模糊机器与人类思维的界限。

    3. 技术开源背后的生态

    ReSearch的开源实现让我看到AI民主化的希望。通过详细的训练脚本和环境配置,研究者降低了技术门槛,使更多开发者能够站在巨人肩膀上探索。这种开放生态让我联想到Linux内核的进化路径——当核心算法成为公共知识,整个行业的创新速度将呈指数级增长。

    但开源也带来新的伦理挑战。当检索能力被滥用,AI可能成为虚假信息的扩散器;当强化学习的奖励机制被恶意操控,模型可能陷入"优化幻觉"。这提醒我们,技术普惠的同时必须构建相应的安全框架,正如ReSearch通过屏蔽检索内容避免过拟合,AI治理也需要类似的"Cognitive Sandbox"。诸如近期我们可以看到类似 “投毒” AI 的报道,在巨大利益的驱使下,面向 Search“优化” 可能会成为灰产生态的一环,而这急需规则、法规的制定治理

    4. AI本质是什么

    ReSearch让我重新审视"智能"的定义。当模型通过迭代搜索构建知识图谱时,它是否已经具备某种原始的意识?当它在推理链中插入<think>标签进行自我反思时,这种行为是否暗示着某种"机器直觉"?更重要的是,这种技术正在重塑人机关系。ReSearch不是简单地替代人类,而是成为认知的外延。有句话我忘记是谁说的,在哪里看到的了:“当AI成为人类思维的脚手架,我们解决问题的能力边界将被不断拓展”。

    5. 向远看

    ReSearch的潜力远未耗尽。我假想将其与多模态感知结合,让AI在视觉、听觉信息中主动检索关键线索;或者与时间序列数据融合,赋予模型预测未来的能力。更激进的想法是,将强化学习的奖励信号替换为基于人类反馈的道德框架,让AI在复杂伦理困境中学会权衡。它不仅处理信息,更理解信息的意义;它不仅回答问题,更知道如何提出正确的问题。当AI具备这种能力时,人类与机器的关系将不再是控制与被控制,或许应该是:共生与共创。

    各位,看过此文有什么感想?如有其他想法可以在评论区留言,我们聊聊。或者加入“觉察流”社区群,与群里的小伙伴一起学习、交流。加入方法,私信回复“入群”“加群”即可。


    参考资料
    1. 1. ReSearch论文:ReSearch: Learning to Reason with Search for LLM via Reinforcement Learning
      https://arxiv.org/pdf/2503.19470
    2. 2. ReSearch GitHub项目: GitHub - Agent-RL/ReSearch
      https://github.com/Agent-RL/ReSearch

    关联阅读

    LLM智能体:重新定义人机关系的 AI 科技(综述万字长文)

    ◆?智能体经济战略前瞻:颠覆与新生(二万字长文)

    SalesRLAgent:销售AI,从工具变战略伙伴

    ◆?MCP协议的安全隐患:AI智能体的“隐形炸弹”

    ◆?MemInsight:让AI的记忆像人类一样高效 

    MAPS:基于苏格拉底引导的Multi-Agent系统,解决多模态科学问题新思路

    SICOG:让多模态模型学会 “观察” 和 “思考”

    Loong:通过 Verifiers 实现大规模合成数据,解锁多领域推理能力

    构建下一代智能体:从 Prompt 到 End-to-End RL

    AGDebugger:Multi-Agent 系统的开发调试与引导利器

    复杂任务不再难,ARMAP 助力 AI Agent 大显身手

    ◆?模型吞噬代码,Agent重构世界:当AI Agent与模型协同进化 (万字长文)

    COWPILOT:人机协作网页导航的新思路 

    ScoreFlow:让 AI Agent 协作更智能、更高效

    ◆?PLAN-AND-ACT:提升AI Agent长期任务规划能力的新思路 

    ◆?为何Multi-Agent系统成功率不够高?14种失败模式大揭秘 

    STEVE:让 AI 更智能地操控图形界面

    AutoAgent:让AI智能体开发变得触手可及

    AI 智能化的选择:API Agents 和 GUI Agents 的碰撞与融合

    探索 MovieAgent:Multi-Agent CoT 规划的电影生成

    ◆?Agentic Workflows:让工作流更智能、更灵活

    ◆?开源Agent通信协议对比分析:MCP、ANP、Agora、agents.json、LMOS、AITP (万字长文)

    ◆?实用MCP Server分享,让Agent解锁 Claude AI 的无限可能

    2025 年金融行业 AI 工具大盘点:十大变革力量来袭

    OpenAI 发布新工具:让构建AI Agent智能体更简单

    ◆?TwinMarket:用 AI Agent 模拟市场行为,揭开金融市场的神秘面纱

    ◆?AI智能体的未来:硅谷投资风向、Manus的启示与OWL等开源探索

    ◆?从Manus到OpenManus:AI产品如何赢得未来?

    ◆?干不过 AI 就加入它,MGX Agent 前端开发最佳实践-案例

    ?MGX,开启 AI 软件开发新纪元,万字长文深度解析 

    A-MEM:让 AI Agent 拥有动态记忆组织

    ◆?PlanGEN:让 AI 规划更智能的多智能体框架

    MCTD:解锁 AI 规划的超级引擎 

    单智能体规划:多智能体系统中的最优决策框架

    ?四个平替 OpenAI Deep Research 的强大开源工具

    CODESIM:多智能体代码生成与问题解决的新思路

    打破传统:多智能体架构探索的新范式 ——MaAS 框架解读

    AI Agent基础设施:解锁潜力与管理风险的关键

    ◆?解锁 AI Agent 构建密码:六大开源框架解析

    ◆?AFLOW:用AI优化AI,开启高效工作流的新篇章

    ◆?2025 年 13 门免费 AI Agent 课程资源

    使用 PydanticAI 框架快速构建 Multi-Agent 系统

    ◆?Eko:用自然语言驱动前端开发,AI Agent 工作流新体验!

    下一代AI Agent的"工具手":MCP如何让AI自主操作数据库/浏览器/API

    IntellAgent:对话式 AI 的评估框架

    AI的自我进化之路:Multi-Agent系统的自主迭代优化

    ◆?从理论到现实:OpenAI 的 Operator 展示 CCA 的巨大潜力

    AI Agent 实战:用 LangGraph 实现持久化与流式传输

    ◆?Search-o1:动态检索 + 文档精炼,让 AI 推理解锁知识盲区

    ◆? CHRONOS:AI 迭代自我问答,精准构建新闻时间线

    ◆?AI学会自我反思?Agent-R 使用蒙特卡洛树搜索(MCTS)自我训练自动纠错,让AI更聪明

    为AI Agent设定边界:自然语言权限与结构化权限的结合 

    ◆?AI 落地的抉择:函数、多工具Agent还是Multi-Agent?

    Cline 3.3 新版本:编程界的 “安全卫士” 与 “效率先锋”

    Self-MoA:大道至简,聚焦单一模型打破传统MoA,简化LLM集成  

    ?多智能体系统优化新突破:Mass 框架引领智能协作新思路



    注:本文论文由AI辅助翻译,内容由人工整理/审核发出


    欢迎点 加 关注。公号加⭐️精彩不错过


    我是肆〇柒?,一名热爱AI的互联网人。在这里,分享自己的观察与思考,希望我的探索能激发同样热爱科技与生活的你,为你带来灵感与思考。


    期待我们的不期而遇。点击??关注


    ?‍♂️入群交流
    1. 公众号菜单点击“社群”,扫码入群。
    2. 回复“入群”“加群”等,添加作者微信进群。

    53AI,企业落地大模型首选服务商

    产品:场景落地咨询+大模型应用平台+行业解决方案

    承诺:免费场景POC验证,效果验证后签署服务协议。零风险落地应用大模型,已交付160+中大型企业

    联系我们

    售前咨询
    186 6662 7370
    预约演示
    185 8882 0121

    微信扫码

    添加专属顾问

    回到顶部

    加载中...

    扫码咨询