AI知识库

53AI知识库

学习大模型的前沿技术与行业应用场景


<think>之后,是什么?

发布日期:2025-02-21 08:48:45 浏览次数: 1609 来源:老油杂谈
推荐语

深入探索大模型的未来趋势和行业共识。

核心内容:
1. Reasoning Model的突破与业界认知的颠覆
2. System-2 Thinking的共识及其在大模型中的应用
3. CEO视角下,大模型如何助力企业增长

杨芳贤
53A创始人/腾讯云(TVP)最具价值专家
因参与一个涉及77张表3000+字段的“地狱级别”黑客松,老于自去年12月份起开始闭关。
而在闭关期间,Reasoning Model的衔枚疾进仿佛颠覆了业界对大模型既有的认知。但是,业界的种种带来的恍如隔世,却是大模型早已被书写的命运。
14个月以前,Andrej Karpathy在《Intro to Large Language Models》中描绘了大模型的愿景:
  • 多模态
  • System-2 Thinking
  • RL + Self-Improvement
  • LLM OS
  • ...
而后续的演进证明,虽然对AGI没有绝对一致的定义,但核心圈对“大模型应有的样子”可能早已达成了共识。
    这个共识的内核是System-2 Thinking,虽然多模态曾一度风头无两,但行业研发的重心很快回到了<think>这杆大旗之下,毕竟“At Human Level”的聪明并不基于视频生成的质量。
    OpenAI o1->DeepSeek R1->OpenAI Deep Research
    “Slower, but more Rational”,在过去半年中,大模型愈来愈长于思考,但价格却越来越便宜(感谢DeepSeek):
    图1:加速发展中的System-2 Thinking
    <think>如此成功,以至于Sam Altman宣称:
    “We are now confident we know how to build AGI as we have traditionally understood it.”
    但是,仅凭<think>就可以达成普适的“Human-Level”吗?

    CEO的选择
    假设你是一位CEO,而你向你的两位首席战略官A和B问了一个相同的问题:
    如何才能让我们的营收在明年增加20%?
    首席A
    • 拿到问题后马上闭关。经过一个多月的苦心思考、查阅无数资料,最终整理出100页PPT和10万字的论证。

    首席B
    • 首先询问确认你的观点和判断
    • 之后,基于你的观点和判断组织了十数场针对内部(产品/销售/客户成功)、外部(客户/竞品)专家的调研和访谈;
    • 不断利用外部的事实和洞察校验和调整既有的观点,同时持续寻求你的反馈意见以保证大方向的一致性;
    • 大概一个多月后,交付了1页具有说服力的Executive Summary,10页以内具备完整逻辑的Storyline,以及30~50页的翔实支持数据

    如果首席A和B只能留其一,你会选择谁?
    首席A的行事方式更接近于<think>,而首席B则代表典型的“Human-Level”咨询顾问。
      表1:首席A vs 首席B
      而A与B之间的差异,就是在现实商业场景中,<think>的缺陷。

      <think>的缺陷
      沿着“Slower,but more Rational”的轨迹,<think>企图以CoT基于自有知识体系结合精选的搜索结果应对现实世界中的复杂问题。
      但这种模式有两道绕不过去的坎:
      坎一,数字化边界会制约<think>的求解能力。与Math和Coding不同,绝大部分的商业场景并不具备一个完美复刻现实世界、并提供Reward Function的World Model。即使在未来,我们也不能指望商业场景中的所有关键要素都会被数字化,而这将导致<think>求解所需的关键要素在射程之外(图2):
      图2:重要的求解信息在<think>的射程之外
      例如,在2B市场,海量的决定性要素(客户的意图、竞争对手的情报、销售对客户的判断和洞察)可能永远不会被数字化,而仅凭借CRM(结构化数据)和会议纪要(非结构化数据),<think>无法求解客户的真实意图
      坎二,<think>并不具备“厘清”能力。人类是复杂的,当CEO嘴上说:
      如何才能让我们的营收在明年增加20%?
      而实际上他的意思是:
      如何才能(既有客群中)让我们的营收在明年在不涨价的情况下)增加20%?(同时这块业务不能来源于张总的现有业务...
      咨询顾问(类似于首席B)的一个重要技能就是厘清干系人的真实意图,通过收敛问题的范畴从而获得最优解。而当下<think>几乎没有任何厘清的机制。收敛的方向错误,一股脑花费30分钟产生的10万字结论可能无法满足干系人的基本需求。而未来数小时、乃至数天的<think>将无限放大这个缺陷。
      所以,即使大模型的核心圈宣布AGI的无限接近,但<think>对真实商业场景的无力会倒逼厂商在<think>之外另想办法。
      而当下最顺理成章的方案是让大模型具备提问的能力,即<question>。

      <question>
      实际上,OpenAI已经在做相关的尝试。在响应用户的要求前,OpenAI Deep Research已经可以通过提问去收敛问题的范围,例如,当用户询问“民用超音速航空市场”的投资机会和风险时,Deep Research会反问:
      • 时间范畴有限定吗?有特定的目标公司吗?
      • 行业、目标市场是什么?限定数据源吗?
      • 有指定技术路线吗?
      • ...
      图3: OpenAI Deep Research提出的厘清问题
      但是,当前该机制还略显原始:一是其提出的问题略显随机,二是在整个<think>过程中,<question>仅仅发生在对话的开始阶段。
      而理想中的<question>机制包括,首先,能够通过逐层提问收敛问题。对用户意图的厘清工作应该贯穿<think>过程的始终(图4),此外,厘清也并非简单的问题列举,绝大多数情况下是基于现有数据和分析的再次确认
      图4: <question>逐层厘清问题
      其次,能够通过提问收集非数字化的洞察。在此处,<question>执行类似于专家访谈的操作,有目的性地从非数字化世界的海量信息中攫取<think>求解的关键要素。
      此外,与当下<think>盲信数据源不同,<question>应如同销售总监在QBR上反复“拷问”销售一样,利用交叉验证、压力测试和对表情和体态的观察以辨别这些要素的真伪。
      图5:通过<question>收集非数字化信息
      既然业界对Reasoning Model的期许不仅仅是大模型当下的常见用例(客服、文字总结和生成),而是在实际商业场景中达成“At Human Level”的智慧,那么<think>之后,<question>可能是一种必然。
      当然,<think> + <question>体系还有诸多需要探索的问题,例如
      • 基于当下的RL + Search机制,模型如何触发提问?还是在RL之外另起炉灶?
      • 如何构建私有问题解决框架?和提问最佳实践?
      • 如何能够让模型连续<think> + <question>数个月?
      • ...

      53AI,企业落地大模型首选服务商

      产品:场景落地咨询+大模型应用平台+行业解决方案

      承诺:免费场景POC验证,效果验证后签署服务协议。零风险落地应用大模型,已交付160+中大型企业

      联系我们

      售前咨询
      186 6662 7370
      预约演示
      185 8882 0121

      微信扫码

      和创始人交个朋友

      回到顶部

       

      加载中...

      扫码咨询