微信扫码
添加专属顾问
我要投稿
探索大模型的未来形态及其对应用公司的影响。核心内容:1. OpenAI Deep Research模型的内部执行能力与强化学习应用2. Anthropic对Agent的定义及其在大模型中的重要性3. 模型作为产品的未来趋势及其对应用公司的影响
导读:
OpenAI 说 Deep Research 其实是一个模型,它基于 o3 训练,但不是 o3 加一堆工作流。
Anthropic 对 Agent 的定义是:Agent 必须在内部执行目标任务,而不是依赖外部的工作流。
在强化学习时代,给模型一个封闭的环境和奖励,模型就可以学会这个环境的生存法则。
强化学习可以让大模型+工作流真正变为内化的 Agent,完成端到端的任务。
如果模型公司已经可以完成端到端任务,是不是模型本身就是应用?
那应用公司的空间是否依然存在?这个问题值得思考。
本文部分摘录并翻译自 Alexander Doria,一家正在做 RAG Agent 的联创。
摘录开始:
在过去几周,我们看到了"模型作为产品"的两个典型例子:OpenAI 的 Deep Research 和 Claude Sonnet 3.7。
我读到很多关于 Deep Research 的误解,这些误解因开源和闭源克隆产品的增多而更加严重。OpenAI 并非仅在 O3 之上构建了一个包装器。他们训练了一个全新的模型,能够在内部执行搜索,无需任何外部调用、提示或编排:
深度研究模型由针对网页浏览优化的早期版本 OpenAI o3 提供支持。
该模型学习了核心浏览能力(搜索、点击、滚动、解析文件)(...),并通过对这些浏览任务的强化学习训练,学会了如何推理以综合大量网站信息,找到特定内容或编写全面报告。
Deep Research 不是标准的 LLM,也不是普通的聊天机器人。它是一种新型的"研究语言模型",专门设计用于端到端执行搜索任务。
对于认真使用它的人来说,这种差异立即显现:该模型能生成结构连贯、具有系统化源分析过程的长篇报告。相比之下,正如 Hanchung Lee 指出的,其他所有的 Deep Search,包括 Perplexity 和 Google 的变体,都只是带有一些微调的常规模型:
Google 的 Gemini 和 Perplexity 的聊天助手也提供"深度研究"功能,但它们都没有发布任何关于如何为此任务优化模型或系统的文献,也没有进行任何实质性的定量评估(...)我们假设它们所做的微调工作并不显著。
Anthropic 一直在更清晰地阐述他们的愿景。去年十二月,他们提出了一个有争议但在我看来正确的 Agent 模型定义。
类似于 Deep Search,Agent 必须在内部执行目标任务:它们"动态指导自己的过程和工具使用,控制完成任务的方式"。
目前大多数 Agent 初创公司构建的不是真正的 Agent,而是工作流,即"通过预定义的代码路径编排 LLM 和工具的系统"。工作流在某些垂直领域仍可能创造价值。
然而,对于现在在大型实验室工作的人来说,显而易见的是,自主系统的所有重大进展都将首先通过重新设计模型来实现。
Claude 3.7 的发布就是一个非常具体的例证,这个模型主要是为处理复杂代码用例而训练的。所有类似 Devin 的工作流调整在软件工程基准测试中都获得了显著提升。
再举一个小规模的例子:在 Pleias,我们目前正致力于 RAG 的自动化。
当前的 RAG 系统由许多相互关联但脆弱的工作流组成:路由、分块、重排序、查询解释、查询扩展、源上下文化和搜索工程。
随着训练技术栈的发展,有可能将所有这些流程整合到两个独立但相互关联的模型中:一个用于数据准备,另一个用于搜索/检索/报告生成。
这需要精心设计的合成流程和全新的强化学习奖励函数。真正的训练,真正的研究。
这在实践中意味着:转移复杂性。
训练预先考虑了各种行动和边缘情况,使部署变得更简单。但在这个过程中,大部分价值现在由模型训练者创造,最终也可能被他们获取。
简而言之,Claude 的目标是颠覆并取代当前的工作流,比如来自 llama index 的这种基本"代理"系统:
替换为这样:
摘录完毕。
原文还有一些激进的观点,认为模型公司在未来的几年将会吞噬应用公司,并会停止像应用公司提供 API。
这个问题有点类似于:如果利润足够丰厚,DeepSeek 还会继续开源吗?
此事有关信仰,在此不做过多引述,可自行阅读。
https://vintagedata.org/blog/posts/model-is-the-product
以上就是今天的全部内容。
感谢关注橘子汽水铺,下次再见。
训练了一个全新的模型: https://cdn.openai.com/deep-research-system-card.pdf
指出的: https://leehanchung.github.io/blogs/2025/02/26/deep-research/
模型定义: https://www.anthropic.com/research/building-effective-agents
53AI,企业落地大模型首选服务商
产品:场景落地咨询+大模型应用平台+行业解决方案
承诺:免费场景POC验证,效果验证后签署服务协议。零风险落地应用大模型,已交付160+中大型企业
2024-08-13
2024-06-13
2024-09-23
2024-08-21
2024-05-28
2024-07-31
2024-08-04
2024-04-26
2024-07-09
2024-09-17
2025-03-08
2025-03-08
2025-03-07
2025-03-07
2025-03-05
2025-03-05
2025-03-05
2025-03-04