我要投稿

当 OpenAI 和 Anthropic 进入应用层，且不再提供 API 时

发布日期：2025-03-22 20:07:46 浏览次数： 1704 作者：MLOasis

”套壳“产品该怎么办？各个 AI 产品的竞争力是什么？

模型即产品吗？

ChatGPT 横空出世后，几乎每隔一段时间我就会问自己：模型即产品吗？

答案在反复横跳：

最开始 ChatGPT 让我觉得模型就是产品，在 chatbot 的形态里，确实模型的能力就是 chatbot 的最大价值。

中途我开始觉得模型非产品了，在大模型时代的 AI 工程师与 AI 产品写道：
“最终一个 AI 系统应该是由多个大大小小的模型（Agent）各司其职组成的，未来仅有模型可能并不能构成产品，而只是一个个 feature，很多产品都可以轻松集成 LLM 实现同样的 feature，围绕各个模型搭建起来的 LLMOps 系统，或许才是最终的 AI 产品。”

这里的点是我认为最终一个产品应该是一整个围绕 LLM 搭建起来的系统，比如用其他小模型或工作流处理前置数据后再输入 LLM，不同模型提供不同的 feature，只接入 LLM API 还不够成为一个好产品，而应该是一些大小模型的工作流（workflow）编排。

在大模型：Token 就是力量！写道：
“随着时间的推移，我逐渐意识到，在聊天场景外，模型本身并非产品，而更像是核心驱动引擎，一种通用能力，能够根据不同需求进行定制化输出。通过与上下游的数据和服务结合，模型能够构建出更复杂的生态系统。”

再后来 DeepSeek 开源，由于其是第一个向所有人公开思维链（CoT）且同时可以打开联网搜索的推理模型，人们得到了一种崭新的体验，这种体验就是直接来自模型能力的进步，于是我又觉得模型就是产品了...

最近读到了一篇新文章 The Model is the Product^[2] 让我感触很深，又重新思考了下这个问题。

这篇文章的观点如标题：模型本身就是产品。投资者押宝应用层，不看好其他模型训练商可能是有较大风险的，在 AI 进化的下一阶段，应用层很可能首先被自动化和颠覆。

Deep Research：信息检索与整理的自动驾驶

在红杉资本对 OpenAI Deep Research 开发者的访谈 OpenAI’s Deep Research Team on Why Reinforcement Learning is the Future for AI Agents^[3] 中，一句“RL is SO BACK”让我印象深刻。然而，我并未深入思考 OpenAI 为何针对信息检索与整理场景，专门使用强化学习重新训练了一个模型。

实际上，Deep Research 是一种 Agentic RAG（Retrieval-Augmented Generation），即由 LLM（或多个 LLM 组成的 Multi-Agent）驱动的自动挡联网 RAG。关于手动挡的联网 RAG，强烈推荐 Jina 的文章 DeepSearch 与 DeepResearch 的设计和实现，其中详细介绍了目前通用的 RAG 工作流实现方式，即“传统”的 RAG 工作流：分块 --> 嵌入 --> 检索 --> 排序 --> 生成。更复杂的工作流还会加入路由（Routing）和查询扩展（Query expansion）等环节，这些细节的优化使得 RAG 实现简单但做好却并不容易。

当这些 RAG 工作流完全由 LLM 自主驱动时，包括浏览网页、调用工具、信息交叉验证和整理结果生成报告等，整个过程实现了自动化，相当于信息检索与撰写报告的“自动驾驶”。

OpenAI 并未直接包装套壳 o3 来完成信息检索与生成报告任务，而是基于 o3 端到端微调训练了一个全新的模型，使其能够在内部执行搜索，无需任何外部调用、提示或协调。通过对浏览任务的强化学习训练，该模型掌握了核心浏览功能（搜索、点击、滚动、解释文件等）以及如何推理综合大量网站，以查找特定信息或撰写综合报告。

这意味着什么？

OpenAI 直接在检索与写报告的场景上端到端训练了一个新模型——Deep Research。这个模型并非像 gpt-4o 或 o 系列那样的通用模型，而是专门为 AI 搜索这一应用场景训练的模型。而且 Deep Research 暂时不提供 API，若想使用这项功能，需要每月支付 200 美元！而这 200 美元的绝大部分价值来自端到端训练的专用模型。

OpenAI 通过训练专用模型的方式，从模型层进入了应用层。

套壳也有价值

据报道^[4]，AI 驱动的编码助手 Cursor 的开发商 Anysphere 正在与风险投资家洽谈，以接近 100 亿美元的估值筹集资金，Anysphere（Cursor 的开发商）对 Cursor 潜在的 100 亿美元估值相比三个月前的 26 亿美元估值实现了惊人的 4 倍增，这突显了投资者对 AI 编码工具日益高涨的兴趣。

除了 Cursor 之外，许多 AI 编程工具，如 AI 搜索引擎 Perplexity 和浏览器插件 Monica，同样通过集成多个顶尖模型来实现其产品功能，并且目前都取得了可观的盈利。

与 Deep Research 目前专注于信息检索与报告撰写不同，近期备受瞩目的产品 Manus（由 Monica 公司推出）则更像是一个集成了 Deep Research、Operator、Lovable 和 memory 的综合体。它使得 LLM 能够在虚拟机环境中调用更多工具，执行更复杂的任务。Manus 的 Agent 系统很可能也对模型进行了专门的后训练，但具体使用了哪些模型作为基础，以及涉及多少个模型，目前尚不明确。

Info

OpenAI 的 Operator 是一款基于人工智能的智能代理工具，旨在通过模拟人类在浏览器上的操作来执行各种任务。它能够独立完成重复性浏览器任务，如填写表单、订购杂货、预订机票等；
Lovable 是一款基于人工智能的全栈开发平台，允许用户通过自然语言描述需求来快速构建网站和 Web 应用程序；

这里提一下 Anthropic 推出的模型上下文协议（MCP），这是一个开放标准，旨在通过统一的客户端-服务器架构解决大型语言模型（LLM）与外部数据源之间的连接问题。MCP 的设计使得 LLM 应用能够无缝集成外部数据源，如文件系统、数据库等，突破了传统 LLM 仅能通过文本交互的限制。

但是，Manus 的 Co-founder 在 ?^[1] 上说了他们没用 MCP。

Manus 的定位是一个通用 Agent 系统，在其 Demo 视频中展示了 GAIA 上的得分。结果显示，在不同 Level 上，Manus 的表现均超越了 OpenAI 的 DeepResearch。

Info

GAIA 是评估 Agent 系统多步推理和工具链调用的榜单。

截止发文，根据 Huggingface 的 GAIA 榜单^[5]，还未见 Manus 上榜。

从 GAIA 榜单的排名来看，位居前列的 Agent 系统大多基于 Claude 和 o 系列的模型。从表面上看，这些系统似乎只是“套壳”使用现成模型，但 Agent 系统的设计本质就是围绕多个 LLM 构建的，当然，开发者也可以选择自行训练新的模型。

整个 Agent 系统的核心竞争力在于 LLM 所具备的强大能力，包括多步推理、工具选择以及视觉理解。显然，模型本身并非 Manus 独有的优势，一开始以为 Manus 有很大的可能是调用了 Claude-3.7-Sonnet，但是 Manus 联合创始人季逸超最近透露，Manus 产品使用了不同的基于阿里千问大模型（Qwen）的微调模型。

看起来 Manus 应该是混合了不同的模型，Claude 不是唯一的选择。

目前来看，Manus 在技术上没有实现重大突破，其创新更多体现在 Agent 系统的架构设计和产品交互体验上，我没有使用过，但是从产品的 demo 视频上看还是有些惊艳的，看起来能极大解放人们的注意力，Agent 可以在自己的电脑上自主完成人们交待的任务，或许这就是“套壳”的艺术与价值。

当无法套壳时

仅套壳是没有很大的竞争力的。

Databricks 的 Gen AI 副总裁 Naveen Rao 在 ?^[6]上大胆预测：

所有闭源 AI 模型提供商都将在未来 2-3 年内停止销售 API。只有开源模型才能通过 API 提供（......）封闭模型提供商正试图构建非商品功能，他们需要出色的用户界面来提供这些功能。它不再仅仅是一个模型，而是一个带有用户界面的应用程序。

最引人注目的“套壳”公司如今正争相转型为混合型 AI 训练公司。虽然它们确实具备一定的训练能力，但这一点却很少被公开宣传。

据我所知，Cursor、Perplexity 和 Monica 等产品的功能并非仅仅依赖于“套壳”现成模型，它们都专门训练了自己的小模型。例如，Cursor 专门开发了用于代码快速补全的小模型，而 Perplexity 则长期依赖其自研的分类器进行路由选择，最近更是转向训练自己的 DeepSeek 模型以优化搜索功能。

如果闭源模型厂商真的停止提供 API，那么基于最强大的开源模型如 DeepSeek、Qwen 和 Llama 将是另一种选择，但这可能仍显不足。这些模型虽然是通用大模型，具备强大的泛化能力，但在某些高度专业化的垂直领域，它们可能无法与专门训练的模型相媲美。

此外，开源模型的微调训练和优化需要一定的计算资源和专业知识，这对于中小型企业来说可能是一个巨大的挑战。即使能够使用开源模型，如何将其与现有的业务流程无缝集成，仍然是一个需要解决的问题。

对于那些希望在未来 AI 市场中占据一席之地的公司来说，自研模型可能是一个不可避免的选择。通过自研模型，企业可以根据自身的业务需求进行定制化训练，从而在特定领域中获得竞争优势。

在闭源模型 API 逐渐消失的背景下，混合模式可能成为未来的主流。企业可以结合开源模型和自研模型，构建灵活且高效的 AI 系统。例如，使用开源模型处理通用任务，而通过自研模型解决特定领域的复杂问题。

微软与 OpenAI 的蜜月期似乎正在结束。据报道^[7]，微软正在开发专有 AI 模型，这象征着一种更广泛的趋势，即科技巨头们都在根据自己的独特需求和战略目标量身打造 AI 解决方案。

闭源模型的盈利模式

OpenAI 2024 年的收入：

收入来源	金额（亿美元）	占比（%）
用户订阅费（个人）	27.75	75
API 销售	5.55	15
其他（团队+企业）	3.7	10

OpenAI 作为一家私人公司，其财务数据并非完全公开，上述百分比和金额基于分析师报告和新闻报道的估计。API 销售的具体增长率未明确披露，15% 的比例是基于历史数据的假设，可能不完全准确。

Anthropic 2024 的收入：

收入来源	金额（亿美元）	占比（%）
用户订阅费（个人）	2.4	40
API 销售	3.6	60

同样地，由于 Anthropic 未公开详细财务报告，上述数字基于行业分析和订阅用户估计，可能不完全准确。实际数据可能因市场动态而有所变化。

与 OpenAI 相比，Anthropic 的 API 销售占比显著更高（60% vs. OpenAI 的 15%），这反映出 Anthropic 更加专注于企业开发者市场，而非个人用户订阅。Anthropic 的业务模式更偏向 toB，而 OpenAI 则凭借其 ChatGPT 的强大品牌效应，更加注重 toC 市场。

微软 CEO Satya Nadella（ ? 帖子^[8]）表达了他对 OpenAI 的最新的观点：

Models are getting commoditized. OpenAI is not a model company, it’s a product company.

模型在商品化，OpenAI 不是个模型公司，而是产品公司。

因此，假设闭源模型厂商真的停止提供 API 转向应用层的话，那 OpenAI 是最有可能这么干的。关键在于，直接进入应用层是否会比单独卖 API 获得更多价值，用户的使用体验与效率提升可否像 Deep Research 一样通过专有训练的模型跟其他产品拉开差距？

答案很可能是肯定的。

卖 API 的边际效益递减比在应用层向用户收订阅费大。

Anthropic 的 CPO Mike Krieger 在最新的访谈中表示不再只做模型，后悔没有更早做第一方产品（First-Party Product），不能再将 模型质量与产品用户体验（UX） 分开看待了。

主持人问道：我们之前提到了模型产品，以及构建这些产品。当你思考为消费者构建产品，与构建公司的 API 部门时，你是如何权衡 API 业务和终端用户消费者业务之间的平衡和权衡的？

Mike Krieger 认为，“第一方产品能加速学习。例如，Claude Code 内部部署一周后，我们发现模型未充分利用某工具，这直接反馈到 Claude 3.7 Sonnet 的改进中。第一方工具试用直接推动了模型升级。第三方产品的反馈则隔了一层，即使与编码初创公司合作，效果也不同。因此，第一方产品在学习上更具价值。

此外，第一方产品更易建立用户粘性和品牌忠诚度。围绕第一方产品建立品牌比仅提供 API 更有效。Claude 常是编码产品的默认选项，但 API 并非用户直接使用的产品，难以传播。然而，API 提供了广泛的分发渠道，让我们能像投资者一样探索更多可能性。

从资源分配看，API 业务和第一方产品业务的投入较为均衡。但两点略有不足：一是加快第一方产品的迭代速度，这是我目前最关注的；二是 API 方面，如何在“token 进，token 出”基础上构建更高级的抽象。无论是智能规划、知识库构建，还是工具完善和上下文理解，这些问题都值得在API上努力解决。我们可以将模型训练的知识直接应用于API，并围绕其构建优秀产品。”

而扛起开源大旗的 DeepSeek 有不同的叙事：模型不是作为产品，而是作为通用基础设施层，梁文锋认为现在还处于技术的爆发期，但如果要他们做应用，那也是没问题的：

我们认为当前阶段是技术创新的爆发期，而不是应用的爆发期。长远来说，我们希望形成一种生态，就是业界直接使用我们的技术和产出，我们只负责基础模型和前沿的创新，然后其它公司在 DeepSeek 的基础上构建 toB、toC 的业务。如果能形成完整的产业上下游，我们就没必要自己做应用。当然，如果需要，我们做应用也没障碍，但研究和技术创新永远是我们第一优先级。

端到端模型训练

端到端训练模型是一种机器学习方法，其中模型从原始输入直接学习到最终输出，不需要中间步骤或手动特征工程。研究表明，这种方法在深度学习中特别有效，因为它能捕捉输入和输出之间的复杂交互，可能比传统分步方法表现更好。

例如，在 OpenAI 与 Grok 的高级语音对话功能中，端到端模型可以直接接收音频，然后输出音频，而不是以前先将音频转文本输入给语言模型，然后将语言模型输出的文本在转成语音。

例如，在自动驾驶汽车中，卷积神经网络（CNN）可以直接从原始图像学习驾驶决策，而无需单独的边缘检测或特征提取步骤。这种方法简化了设计，特别是在数据量大时表现优异。不得不再提到特斯拉的 FSD 自动驾驶就是端到端的大模型输入摄像头的数据流，实时输出对汽车进行控制。

还有本文前面提到的 Deep Research 也是端到端训练的模型，模型的输入输出可以理解为现有 RAG 管道的输入输出，也就是一两个模型简化了整个 RAG 的 n 个环节。

是否大部分独特且固定的 workflow，在数据数量与质量都不错的基础上，都可以尝试端到端训练专有模型？

端到端训练模型虽然在优化整体性能方面具有优势，但其劣势也不容忽视，包括对大量数据的依赖、高计算成本、缺乏可解释性、调试困难以及泛化能力和灵活性的不足。

缺乏可解释性的“黑箱”属性可能是有些人最常挂在嘴边的最大缺点了，但若仅因不理解就拒绝使用，那会显得过于狭隘了。正如人类无法完全理解整个宇宙的奥秘，但这并未阻止我们探索它的脚步；同样，我们也不应因为 AI 的“黑箱”特性而放弃借助它来拓展认知的边界。在追求理解的过程中，AI 可以成为我们探索未知的有力工具，而不是被拒之门外的障碍。

AI 产品的竞争力

再引用 Mike Krieger 的话：

通常，那些从模型代际升级中获益的公司，并不是那些在模型发布当天才突然起步的公司，而是那些一直在该领域深耕的公司。
不要等待模型变得完美，而要积极探索这个领域，对当前模型的局限性感到沮丧，然后积极尝试下一代模型。这样，你就能感觉到，你终于可以实现你脑海中构想的东西了，只要模型再强大一点点。
我认为我们可能在观点上达成了一些共识，即专业用例和由此解锁的工作流程是有价值的。而在消费级甚至轻专业级（prosumer）方面，从基础 AI 产品的角度来看，模型已经足够好了。

对于个人来说，对 AI 的 know-how 很重要：知道技术原理，知道实现思路，知道解决方案，知道最佳实践，知道评估方法，知道迭代方向，知道技术的发展方向。

对于企业来说，人才团队始终是最重要的，没有那些人脑子里的 know-how，就算收购拥有了世上最好的产品，那也只能拥有那一瞬间，因为之后世上最好的产品就不是你的产品了，而是下一个更好的产品。

我相信只有具备对模型底层原理理解，且具备模型微调与训练能力的公司，才能在未来的 AI 产品竞争中脱颖而出。

53AI，企业落地大模型首选服务商

产品：场景落地咨询+大模型应用平台+行业解决方案

承诺：免费场景POC验证，效果验证后签署服务协议。零风险落地应用大模型，已交付160+中大型企业