微信扫码
添加专属顾问
我要投稿
AI领域巨头OpenAI和Anthropic不再提供API,对行业意味着什么?深入探讨AI模型与产品的关系。
核心内容:
1. AI模型与产品的关系探讨
2. 模型作为核心驱动引擎的生态系统构建
3. 信息检索与整理领域的AI应用前景
”套壳“产品该怎么办?各个 AI 产品的竞争力是什么?
ChatGPT 横空出世后,几乎每隔一段时间我就会问自己:模型即产品吗?
答案在反复横跳:
最开始 ChatGPT 让我觉得模型就是产品,在 chatbot 的形态里,确实模型的能力就是 chatbot 的最大价值。
中途我开始觉得模型非产品了,在 大模型时代的 AI 工程师与 AI 产品 写道:
“最终一个 AI 系统应该是由多个大大小小的模型(Agent)各司其职组成的,未来仅有模型可能并不能构成产品,而只是一个个 feature,很多产品都可以轻松集成 LLM 实现同样的 feature,围绕各个模型搭建起来的 LLMOps 系统,或许才是最终的 AI 产品。”
这里的点是我认为最终一个产品应该是一整个围绕 LLM 搭建起来的系统,比如用其他小模型或工作流处理前置数据后再输入 LLM,不同模型提供不同的 feature,只接入 LLM API 还不够成为一个好产品,而应该是一些大小模型的工作流(workflow)编排。
在 大模型:Token 就是力量!写道:
“随着时间的推移,我逐渐意识到,在聊天场景外,模型本身并非产品,而更像是核心驱动引擎,一种通用能力,能够根据不同需求进行定制化输出。通过与上下游的数据和服务结合,模型能够构建出更复杂的生态系统。”
再后来 DeepSeek 开源,由于其是第一个向所有人公开思维链(CoT)且同时可以打开联网搜索的推理模型,人们得到了一种崭新的体验,这种体验就是直接来自模型能力的进步,于是我又觉得模型就是产品了...
最近读到了一篇新文章 The Model is the Product[2] 让我感触很深,又重新思考了下这个问题。
这篇文章的观点如标题:模型本身就是产品。投资者押宝应用层,不看好其他模型训练商可能是有较大风险的,在 AI 进化的下一阶段,应用层很可能首先被自动化和颠覆。
在红杉资本对 OpenAI Deep Research 开发者的访谈 OpenAI’s Deep Research Team on Why Reinforcement Learning is the Future for AI Agents[3] 中,一句“RL is SO BACK”让我印象深刻。然而,我并未深入思考 OpenAI 为何针对信息检索与整理场景,专门使用强化学习重新训练了一个模型。
实际上,Deep Research 是一种 Agentic RAG(Retrieval-Augmented Generation),即由 LLM(或多个 LLM 组成的 Multi-Agent)驱动的自动挡联网 RAG。关于手动挡的联网 RAG,强烈推荐 Jina 的文章 DeepSearch 与 DeepResearch 的设计和实现,其中详细介绍了目前通用的 RAG 工作流实现方式,即“传统”的 RAG 工作流:分块 --> 嵌入 --> 检索 --> 排序 --> 生成。更复杂的工作流还会加入路由(Routing)和查询扩展(Query expansion)等环节,这些细节的优化使得 RAG 实现简单但做好却并不容易。
当这些 RAG 工作流完全由 LLM 自主驱动时,包括浏览网页、调用工具、信息交叉验证和整理结果生成报告等,整个过程实现了自动化,相当于信息检索与撰写报告的“自动驾驶”。
OpenAI 并未直接包装套壳 o3 来完成信息检索与生成报告任务,而是基于 o3 端到端微调训练了一个全新的模型,使其能够在内部执行搜索,无需任何外部调用、提示或协调。通过对浏览任务的强化学习训练,该模型掌握了核心浏览功能(搜索、点击、滚动、解释文件等)以及如何推理综合大量网站,以查找特定信息或撰写综合报告。
这意味着什么?
OpenAI 直接在检索与写报告的场景上端到端训练了一个新模型——Deep Research。这个模型并非像 gpt-4o 或 o 系列那样的通用模型,而是专门为 AI 搜索这一应用场景训练的模型。而且 Deep Research 暂时不提供 API,若想使用这项功能,需要每月支付 200 美元!而这 200 美元的绝大部分价值来自端到端训练的专用模型。
OpenAI 通过训练专用模型的方式,从模型层进入了应用层。
据报道[4],AI 驱动的编码助手 Cursor 的开发商 Anysphere 正在与风险投资家洽谈,以接近 100 亿美元的估值筹集资金,Anysphere(Cursor 的开发商) 对 Cursor 潜在的 100 亿美元估值相比三个月前的 26 亿美元估值实现了惊人的 4 倍增,这突显了投资者对 AI 编码工具日益高涨的兴趣。
除了 Cursor 之外,许多 AI 编程工具,如 AI 搜索引擎 Perplexity 和浏览器插件 Monica,同样通过集成多个顶尖模型来实现其产品功能,并且目前都取得了可观的盈利。
与 Deep Research 目前专注于信息检索与报告撰写不同,近期备受瞩目的产品 Manus(由 Monica 公司推出)则更像是一个集成了 Deep Research、Operator、Lovable 和 memory 的综合体。它使得 LLM 能够在虚拟机环境中调用更多工具,执行更复杂的任务。Manus 的 Agent 系统很可能也对模型进行了专门的后训练,但具体使用了哪些模型作为基础,以及涉及多少个模型,目前尚不明确。
这里提一下 Anthropic 推出的模型上下文协议(MCP),这是一个开放标准,旨在通过统一的客户端-服务器架构解决大型语言模型(LLM)与外部数据源之间的连接问题。MCP 的设计使得 LLM 应用能够无缝集成外部数据源,如文件系统、数据库等,突破了传统 LLM 仅能通过文本交互的限制。
但是,Manus 的 Co-founder 在 ?[1] 上说了他们没用 MCP。
Manus 的定位是一个通用 Agent 系统,在其 Demo 视频中展示了 GAIA 上的得分。结果显示,在不同 Level 上,Manus 的表现均超越了 OpenAI 的 DeepResearch。
GAIA 是评估 Agent 系统多步推理和工具链调用的榜单。
截止发文,根据 Huggingface 的 GAIA 榜单[5],还未见 Manus 上榜。
从 GAIA 榜单的排名来看,位居前列的 Agent 系统大多基于 Claude 和 o 系列的模型。从表面上看,这些系统似乎只是“套壳”使用现成模型,但 Agent 系统的设计本质就是围绕多个 LLM 构建的,当然,开发者也可以选择自行训练新的模型。
整个 Agent 系统的核心竞争力在于 LLM 所具备的强大能力,包括多步推理、工具选择以及视觉理解。显然,模型本身并非 Manus 独有的优势,一开始以为 Manus 有很大的可能是调用了 Claude-3.7-Sonnet,但是 Manus 联合创始人季逸超最近透露,Manus 产品使用了不同的基于阿里千问大模型(Qwen)的微调模型。
看起来 Manus 应该是混合了不同的模型,Claude 不是唯一的选择。
目前来看,Manus 在技术上没有实现重大突破,其创新更多体现在 Agent 系统的架构设计和产品交互体验上,我没有使用过,但是从产品的 demo 视频上看还是有些惊艳的,看起来能极大解放人们的注意力,Agent 可以在自己的电脑上自主完成人们交待的任务,或许这就是“套壳”的艺术与价值。
仅套壳是没有很大的竞争力的。
Databricks 的 Gen AI 副总裁 Naveen Rao 在 ?[6]上大胆预测:
所有闭源 AI 模型提供商都将在未来 2-3 年内停止销售 API。只有开源模型才能通过 API 提供(......)封闭模型提供商正试图构建非商品功能,他们需要出色的用户界面来提供这些功能。它不再仅仅是一个模型,而是一个带有用户界面的应用程序。
最引人注目的“套壳”公司如今正争相转型为混合型 AI 训练公司。虽然它们确实具备一定的训练能力,但这一点却很少被公开宣传。
据我所知,Cursor、Perplexity 和 Monica 等产品的功能并非仅仅依赖于“套壳”现成模型,它们都专门训练了自己的小模型。例如,Cursor 专门开发了用于代码快速补全的小模型,而 Perplexity 则长期依赖其自研的分类器进行路由选择,最近更是转向训练自己的 DeepSeek 模型以优化搜索功能。
如果闭源模型厂商真的停止提供 API,那么基于最强大的开源模型如 DeepSeek、Qwen 和 Llama 将是另一种选择,但这可能仍显不足。这些模型虽然是通用大模型,具备强大的泛化能力,但在某些高度专业化的垂直领域,它们可能无法与专门训练的模型相媲美。
此外,开源模型的微调训练和优化需要一定的计算资源和专业知识,这对于中小型企业来说可能是一个巨大的挑战。即使能够使用开源模型,如何将其与现有的业务流程无缝集成,仍然是一个需要解决的问题。
对于那些希望在未来 AI 市场中占据一席之地的公司来说,自研模型可能是一个不可避免的选择。通过自研模型,企业可以根据自身的业务需求进行定制化训练,从而在特定领域中获得竞争优势。
在闭源模型 API 逐渐消失的背景下,混合模式可能成为未来的主流。企业可以结合开源模型和自研模型,构建灵活且高效的 AI 系统。例如,使用开源模型处理通用任务,而通过自研模型解决特定领域的复杂问题。
微软与 OpenAI 的蜜月期似乎正在结束。据报道[7],微软正在开发专有 AI 模型,这象征着一种更广泛的趋势,即科技巨头们都在根据自己的独特需求和战略目标量身打造 AI 解决方案。
OpenAI 2024 年的收入:
OpenAI 作为一家私人公司,其财务数据并非完全公开,上述百分比和金额基于分析师报告和新闻报道的估计。API 销售的具体增长率未明确披露,15% 的比例是基于历史数据的假设,可能不完全准确。
Anthropic 2024 的收入:
同样地,由于 Anthropic 未公开详细财务报告,上述数字基于行业分析和订阅用户估计,可能不完全准确。实际数据可能因市场动态而有所变化。
与 OpenAI 相比,Anthropic 的 API 销售占比显著更高(60% vs. OpenAI 的 15%),这反映出 Anthropic 更加专注于企业开发者市场,而非个人用户订阅。Anthropic 的业务模式更偏向 toB,而 OpenAI 则凭借其 ChatGPT 的强大品牌效应,更加注重 toC 市场。
微软 CEO Satya Nadella( ? 帖子[8])表达了他对 OpenAI 的最新的观点:
Models are getting commoditized. OpenAI is not a model company, it’s a product company.
模型在商品化,OpenAI 不是个模型公司,而是产品公司。
因此,假设闭源模型厂商真的停止提供 API 转向应用层的话,那 OpenAI 是最有可能这么干的。关键在于,直接进入应用层是否会比单独卖 API 获得更多价值,用户的使用体验与效率提升可否像 Deep Research 一样通过专有训练的模型跟其他产品拉开差距?
答案很可能是肯定的。
卖 API 的边际效益递减比在应用层向用户收订阅费大。
Anthropic 的 CPO Mike Krieger 在最新的访谈中表示不再只做模型,后悔没有更早做第一方产品(First-Party Product),不能再将 模型质量与产品用户体验(UX) 分开看待了。
主持人问道:我们之前提到了模型产品,以及构建这些产品。当你思考为消费者构建产品,与构建公司的 API 部门时,你是如何权衡 API 业务和终端用户消费者业务之间的平衡和权衡的?
Mike Krieger 认为,“第一方产品能加速学习。例如,Claude Code 内部部署一周后,我们发现模型未充分利用某工具,这直接反馈到 Claude 3.7 Sonnet 的改进中。第一方工具试用直接推动了模型升级。第三方产品的反馈则隔了一层,即使与编码初创公司合作,效果也不同。因此,第一方产品在学习上更具价值。
此外,第一方产品更易建立用户粘性和品牌忠诚度。围绕第一方产品建立品牌比仅提供 API 更有效。Claude 常是编码产品的默认选项,但 API 并非用户直接使用的产品,难以传播。然而,API 提供了广泛的分发渠道,让我们能像投资者一样探索更多可能性。
从资源分配看,API 业务和第一方产品业务的投入较为均衡。但两点略有不足:一是加快第一方产品的迭代速度,这是我目前最关注的;二是 API 方面,如何在“token 进,token 出”基础上构建更高级的抽象。无论是智能规划、知识库构建,还是工具完善和上下文理解,这些问题都值得在API上努力解决。我们可以将模型训练的知识直接应用于API,并围绕其构建优秀产品。”
而扛起开源大旗的 DeepSeek 有不同的叙事:模型不是作为产品,而是作为通用基础设施层,梁文锋认为现在还处于技术的爆发期,但如果要他们做应用,那也是没问题的:
我们认为当前阶段是技术创新的爆发期,而不是应用的爆发期。长远来说,我们希望形成一种生态,就是业界直接使用我们的技术和产出,我们只负责基础模型和前沿的创新,然后其它公司在 DeepSeek 的基础上构建 toB、toC 的业务。如果能形成完整的产业上下游,我们就没必要自己做应用。当然,如果需要,我们做应用也没障碍,但研究和技术创新永远是我们第一优先级。
端到端训练模型是一种机器学习方法,其中模型从原始输入直接学习到最终输出,不需要中间步骤或手动特征工程。研究表明,这种方法在深度学习中特别有效,因为它能捕捉输入和输出之间的复杂交互,可能比传统分步方法表现更好。
例如,在 OpenAI 与 Grok 的高级语音对话功能中,端到端模型可以直接接收音频,然后输出音频,而不是以前先将音频转文本输入给语言模型,然后将语言模型输出的文本在转成语音。
例如,在自动驾驶汽车中,卷积神经网络(CNN)可以直接从原始图像学习驾驶决策,而无需单独的边缘检测或特征提取步骤。这种方法简化了设计,特别是在数据量大时表现优异。不得不再提到特斯拉的 FSD 自动驾驶就是端到端的大模型输入摄像头的数据流,实时输出对汽车进行控制。
还有本文前面提到的 Deep Research 也是端到端训练的模型,模型的输入输出可以理解为现有 RAG 管道的输入输出,也就是一两个模型简化了整个 RAG 的 n 个环节。
是否大部分独特且固定的 workflow,在数据数量与质量都不错的基础上,都可以尝试端到端训练专有模型?
端到端训练模型虽然在优化整体性能方面具有优势,但其劣势也不容忽视,包括对大量数据的依赖、高计算成本、缺乏可解释性、调试困难以及泛化能力和灵活性的不足。
缺乏可解释性的“黑箱”属性可能是有些人最常挂在嘴边的最大缺点了,但若仅因不理解就拒绝使用,那会显得过于狭隘了。正如人类无法完全理解整个宇宙的奥秘,但这并未阻止我们探索它的脚步;同样,我们也不应因为 AI 的“黑箱”特性而放弃借助它来拓展认知的边界。在追求理解的过程中,AI 可以成为我们探索未知的有力工具,而不是被拒之门外的障碍。
再引用 Mike Krieger 的话:
通常,那些从模型代际升级中获益的公司,并不是那些在模型发布当天才突然起步的公司,而是那些一直在该领域深耕的公司。
不要等待模型变得完美,而要积极探索这个领域,对当前模型的局限性感到沮丧,然后积极尝试下一代模型。这样,你就能感觉到,你终于可以实现你脑海中构想的东西了,只要模型再强大一点点。
我认为我们可能在观点上达成了一些共识,即专业用例和由此解锁的工作流程是有价值的。而在消费级甚至轻专业级(prosumer)方面,从基础 AI 产品的角度来看,模型已经足够好了。
对于个人来说,对 AI 的 know-how 很重要:知道技术原理,知道实现思路,知道解决方案,知道最佳实践,知道评估方法,知道迭代方向,知道技术的发展方向。
对于企业来说,人才团队始终是最重要的,没有那些人脑子里的 know-how,就算收购拥有了世上最好的产品,那也只能拥有那一瞬间,因为之后世上最好的产品就不是你的产品了,而是下一个更好的产品。
我相信只有具备对模型底层原理理解,且具备模型微调与训练能力的公司,才能在未来的 AI 产品竞争中脱颖而出。
53AI,企业落地大模型首选服务商
产品:场景落地咨询+大模型应用平台+行业解决方案
承诺:免费场景POC验证,效果验证后签署服务协议。零风险落地应用大模型,已交付160+中大型企业
2025-03-25
微信聊天框内置元宝,超级 App 又一轮进化开始
2025-03-25
万字长文,聊聊下一代AI Agent的新范式
2025-03-25
从FP8到安全张量,DeepSeek‑V3‑0324 重塑大模型生态的秘密武器
2025-03-25
体验实在Agent,这才是当前形成生产力的企业级通用智能体
2025-03-25
Tokens与大语言模型:你真的懂它们的关系吗?
2025-03-25
法律助手:LexisNexis助力法律AI
2025-03-25
Cherry Studio 入门 MCP:为你的大模型插上翅膀
2025-03-25
【AIOps】Prometheus/夜莺接入DeepSeek大模型
2024-08-13
2024-06-13
2024-08-21
2024-09-23
2024-07-31
2024-05-28
2024-08-04
2024-04-26
2024-07-09
2024-09-17
2025-03-25
2025-03-23
2025-03-22
2025-03-22
2025-03-22
2025-03-22
2025-03-22
2025-03-21