我要投稿

之后，是什么？

发布日期：2025-02-21 08:48:45 浏览次数： 1858 作者：老油杂谈

因参与一个涉及77张表、3000+字段的“地狱级别”黑客松，老于自去年12月份起开始闭关。

而在闭关期间，Reasoning Model的衔枚疾进仿佛颠覆了业界对大模型既有的认知。但是，业界的种种带来的恍如隔世，却是大模型早已被书写的命运。

14个月以前，Andrej Karpathy在《Intro to Large Language Models》中描绘了大模型的愿景：

多模态；
System-2 Thinking；
RL + Self-Improvement；
LLM OS；
...

而后续的演进证明，虽然对AGI没有绝对一致的定义，但核心圈对“大模型应有的样子”可能早已达成了共识。

这个共识的内核是System-2 Thinking，虽然多模态曾一度风头无两，但行业研发的重心很快回到了<think>这杆大旗之下，毕竟“At Human Level”的聪明并不基于视频生成的质量。

OpenAI o1->DeepSeek R1->OpenAI Deep Research

“Slower, but more Rational”，在过去半年中，大模型愈来愈长于思考，但价格却越来越便宜（感谢DeepSeek）：

图1：加速发展中的System-2 Thinking

<think>如此成功，以至于Sam Altman宣称：

“We are now confident we know how to build AGI as we have traditionally understood it.”

但是，仅凭<think>就可以达成普适的“Human-Level”吗？

CEO的选择

假设你是一位CEO，而你向你的两位首席战略官A和B问了一个相同的问题：

如何才能让我们的营收在明年增加20%？

首席A：

拿到问题后马上闭关。经过一个多月的苦心思考、查阅无数资料，最终整理出100页PPT和10万字的论证。

首席B：

首先询问确认了你的观点和判断；
之后，基于你的观点和判断组织了十数场针对内部（产品/销售/客户成功）、外部（客户/竞品）专家的调研和访谈；
不断利用外部的事实和洞察校验和调整既有的观点，同时持续寻求你的反馈意见以保证大方向的一致性；
大概一个多月后，交付了1页具有说服力的Executive Summary，10页以内具备完整逻辑的Storyline，以及30～50页的翔实支持数据。

如果首席A和B只能留其一，你会选择谁？

首席A的行事方式更接近于<think>，而首席B则代表典型的“Human-Level”咨询顾问。

表1：首席A vs 首席B

而A与B之间的差异，就是在现实商业场景中，<think>的缺陷。

<think>的缺陷

沿着“Slower，but more Rational”的轨迹，<think>企图以CoT基于自有知识体系结合精选的搜索结果应对现实世界中的复杂问题。

但这种模式有两道绕不过去的坎：

坎一，数字化边界会制约<think>的求解能力。与Math和Coding不同，绝大部分的商业场景并不具备一个完美复刻现实世界、并提供Reward Function的World Model。即使在未来，我们也不能指望商业场景中的所有关键要素都会被数字化，而这将导致<think>求解所需的关键要素在射程之外（图2）：