微信扫码
添加专属顾问
我要投稿
深入探索AI在深度搜索领域的最新突破,复现Deep Research的核心技巧。 核心内容: 1. Deep Research的基本概念与价值 2. OpenAI如何通过端到端强化学习训练Deep Research模型 3. 市面上Deep Research的多个复现版本及开源项目分析
知乎:https://zhuanlan.zhihu.com/p/1892489650469323191
(已授权)
大家好,我想通过这个系列的文章,与大家分享如何复现Deep Research的一些关键洞见。在上一篇关于Agent的博客-25年什么样的 Agent 会脱颖而出:简单胜于复杂中,我提到:
OpenAI并不是简单地在GPT基础上套壳(套壳指的是在 GPT 模型的基础上,通过定制化的 prompt 以及固定的代码流程来实现某功能)。相反,OpenAI 基于 GPT-o3,采用端到端强化学习+高质量训练数据的方式训练了一个全新的模型,能够完全在内部完成搜索任务
这给出了一个总体思路,但要真正复现Deep Research,我们需要更多细节。本系列将尝试从end-to-end训练的角度,循序渐进地探讨这个问题。
首先,什么是Deep Research? 它是一个深度搜索和调研的Agent,能在5-30分钟内出一份完整的调研报告。注意,它强调"深度搜索+调研",而非单纯的深度搜索(Deep Search)。
Deep Research的价值不容小觑。正如与真格戴雨森聊 Agent:各行业都会遭遇 “李世石时刻”,Attention is not all you need所言:
要是让实习生做,首先我不可能半夜两点要求他五分钟内给我一份报告,而且他做出来的报告基本没有 Deep Research 好
昨天我就在想,要是从大街上随便找十个人,至少九个已经比不上 Deep Research 了。因为 Deep Research 能在几分钟内,针对任何你需要的话题,给出一份在我看来达到在较好公司工作一两年的白领水平的研究报告。所以我觉得 AGI 已不再是一个科幻概念。现在在收集信息、整理信息这类任务上,AI 已经超过了大多数人
目前市面上已有多个Deep Research的复现版本,包括Google的Deep Research、Grok的DeepSearch和DeeperSearch、Perplexity的DeepResearch、智谱前几天的AutoGLM沉思版、 Genspark、秘塔的深度研究模式。开源的项目也有不少,
根据实测,大公司的产品在交互和研究质量上普遍更胜一筹,如来自卡神@卡兹克的实际体验后的分享。OpenAI的Deep Research虽然耗时最长,但质量也最高; 其次是Grok的DeeperSearch。国内产品如豆包的深度思考和秘塔,效率较高但质量稍逊。
本系列将先聚焦Deep Search和end-to-end训练,循序渐进地展开:
本系列文章将分三部分展开:
希望通过这个系列,能与大家一同探索如何从0到1复现这项令人兴奋的前沿技术。欢迎交流讨论!
在深入研究Deep Research前,我们必须理解:Deep Search是Deep Research的基石。 搜索的本质在于找到全面和直接的信息。根据需求和场景,我们可以采用不同的实现方式:
搜索任务的复杂度也呈不同等级递增,如单跳搜索"哪吒2的导演是谁"、多跳搜索"哪吒 2 的导演还导演过什么电影?"、偏向 deep research的搜索"研究《哪吒2》在国际市场的接受度与文化输出效果,分析其对提升中国文化软实力的贡献"。
多跳搜索和深度研究型搜索的关键在于模仿人的思维链搜索:
这就是为什么Deep Search是Deep Research的基石——只有掌握了这种迭代式、思维链式的搜索能力,才能支撑起完整的深度研究。
Search-o1 是最近比较火的 WebThinker 项目的前身,它提出了一种新颖的方法,让大型语言模型在推理过程中能够主动进行网络搜索,从而增强其推理能力。与传统检索增强生成(RAG)系统相比,Search-o1 有两个关键创新点:
传统 RAG 通常是一次性的:在回答问题前进行一次检索,将检索结果放入上下文中。而 Search-o1 实现了动态的、多步骤的检索机制:
<|begin_search_query|>搜索词<|end_search_query|>
<|begin_search_result|>检索到的内容<|end_search_result|>
标记中返回给模型Reason-in-Documents模检索有一个很严重的问题,就是检索出来的内容可能很杂乱和很长,而现在的大模型处理长文本性能会下降,因此,论文剔除,用另外一个 Reason-in-Documents,把检索到的内容进行精炼,再放入到原有推理链中,从而缓解检索文档中存在冗余信息和LLM 处理长文档的局限性。Prompt 如下
以下图论文中的示例为例,详细说明整个工作流程:
<|begin_search_query|> reaction of grignard reagent with aldehyde <|end_search_query|>
<|begin_search_result|>提炼后的检索内容<|end_search_result|>
中用强化学习来训练query改写
query改写已被证实是检索流程中的关键步骤。当用户提交问题时,大型语言模型(LLM)通常会对其进行重新表述(称为增强查询),然后再执行检索。DeepRetrieval采用创新方法,利用强化学习(RL)而非传统的监督式微调(SFT)来优化这一关键步骤。
DeepRetrieval的突出之处在于它能够通过"试错"方式直接学习,使用检索指标作为奖励,无需昂贵的监督数据。这种方法使模型能够针对实际性能指标进行优化,而不仅仅是模仿人工编写的查询。
论文中值得称赞的是,在五种不同的检索任务中展示的有效性,每种任务都需要不同的查询格式和奖励结构:
1. Literature Searching (文献检索)
2. Evidence-Seeking Retrieval (证据寻找检索)
3. Classic Sparse Document Retrieval (经典稀疏文档检索)
4. Classic Dense Document Retrieval (经典密集文档检索)
5. SQL Database Search (SQL数据库检索)
论文通过研究五种不同类型的检索任务,展示了强化学习在查询改写领域的通用有效性。这些任务包括专业文献检索、基于BM25的关键词匹配以及SQL生成等多种形式。作者的核心论点是:无论用户的初始query和最终改写的 query的形式如何变化(自然语言到自然语言、专用语法到专用语法、或自然语言到SQL),经过精心设计的强化学习训练都能显著提升查询改写的质量,从而大幅提高最终的检索效果。这一发现证明了强化学习方法在查询优化领域具有跨形式、跨领域的适用性和有效性。
既然是强化学习,那肯定是要涉及奖励的,论文针对 5 中不同的检索任务,也涉及了不同的 prompt 和奖励。
其中: 捕获任务特定的检索性能, 奖励符合所需输出结构的结果, 为用户原始的 query, 为模型新改写的 query。
这里以Literature Search和 Database Search来举例,
Literature Search
SQL Database Search
Search-R1通过创新的五阶段交互流程实现知识检索与推理的深度融合:
<think>
思考标签内进行初步推理分析,识别当前知识储备中的信息缺口。<search>查询内容</search>
格式生成精准搜索指令。<information>
信息标签内,为后续推理提供可靠的外部知识输入。<answer>
答案标签输出简洁结论,无需附加解释说明。 以下为 Search-R1的 prompt与 Search-o1不同的是,Search-R1针对任务进行了强化学习的训练,Search-R1没有 Search-o1的 Reason-in-Documents模块,检索到的内容是直接完整放到思维链中的。以下是Search-o1的例子,本质就是生成检索、返回内容、思考,不断循环,直到达到最终答案。
Search-R1使用基于规则的奖励系统,只关注最终结果的正确性:
其中,EM是精确匹配函数, 是从回答中提取的答案, 是标准答案。 这种简单的奖励设计避免了复杂的过程奖励和可能被"黑客攻击"的神经奖励模型。这个模型设计没有包含格式奖励,作者解释因为模型已经表现出良好的结构遵循能力。
R1-Searcher引入了一个两阶段基于结果的强化学习方法,使LLM能够在推理过程中自主调用外部搜索系统:
1. 第一阶段(检索学习训练) :通过检索奖励激励模型学习如何正确调用外部搜索,不关注答案准确性。
<think>...</think>
标签内<answer>...</answer>
标签内<begin_of_query>...</end_of_query>
标签标记2. * 第二阶段(检索结果集成训练) :在确保格式规范的基础上,提升模型有效利用检索信息解决问题的能力
第二阶段删除了检索奖励,引入了答案奖励,同时保留格式奖励但调整了惩罚力度
Ranswer = 2 * IN / (PN + RN)
Search-o1、 Search-R1、R1-Searcher 的研究方向基本一致:构建长的搜索推理思维链,在思维链中不断调整搜索策略。一个重要共识是,强化学习比监督微调(SFT)能带来更好的泛化性。 DeepRetrieval虽然关注查询改写,但范围过窄,难以形成完整思维链。理想的查询改写应是思维链中的自然产物,而非单独训练的任务。 我们距离真正的Deep Research还有十分长的距离。完整的Research涉及更多挑战,如并行搜索、超长下文管理、研究目录编写、结论调整等。但正如开篇所述,先把Search做好,才能做好Research。
53AI,企业落地大模型首选服务商
产品:场景落地咨询+大模型应用平台+行业解决方案
承诺:免费场景POC验证,效果验证后签署服务协议。零风险落地应用大模型,已交付160+中大型企业
2025-04-12
什么是蒸馏技术
2025-04-12
30分钟开发完成!Trae+Claude 3.7 打造小程序全流程揭秘!
2025-04-11
6个MCP服务平台推荐,阿里百炼提供一键部署
2025-04-10
Grok3 API 已经全网上线了!附上免费使用Grok3 API的教程
2025-04-09
「扣子罗盘」全新上线,适合百万 Agent 创业者的搞钱神器
2025-04-09
仅需10万不到,DeepSeek R1 671B大模型本地部署实战指南
2025-04-09
从 0 开始,手把手教你开发第一个MCP服务!
2025-04-08
如何一键部署你的专属 MCP 服务
2025-02-04
2025-02-04
2024-09-18
2024-07-11
2024-07-09
2024-07-11
2024-07-26
2025-02-05
2025-01-27
2025-02-01
2025-04-01
2025-03-31
2025-03-20
2025-03-16
2025-03-16
2025-03-13
2025-03-13
2025-03-11