我要投稿

周鸿祎的“慢思考”先见，领先OpenAI两个月，大模型联盟显威力

发布日期：2024-09-20 14:38:06 浏览次数： 2423 作者：AI鲸选社

2024年，我们几乎每隔一段时间，就会被新发布的大模型“颠覆”，但真正实现能力跨越的大模型，还得是近期发布的OpenAI o1-preview。

这款又名草莓的大模型，不是测评中的你追我赶谁分略高，而是直接超越了人类IQ的平均值，来到了博士水平的120分。正如下图所示，o1-preview似乎已经越过了人类所谓的愚昧之巅。

o1-preview很聪明，但却有个体验性问题，那就是回答问题较慢，有美国教授测试个数学游戏，o1用了108秒来回答，很多人将大模型这一行为称之为“慢思考”。

对于“慢思考”，山姆·奥尔特曼在o1发布后的第二天时盛赞：“这是一个重要的新范式的开始” 。在推出高效的GPT-4o 后，OpenAI 推出更慢的模型，令包括xAI、Google等企业晕圈。

但实际上，360集团创始人周鸿祎早在7月底的ISC.AI 2024大会上就指出：大模型目前只有快思考没有慢思考的能力，我们要通过知识和工具，增强大模型的规划，打造大模型的慢思考能力。

首次提出打造大模型“慢思考”能力的周鸿祎，和今天的o1大模型理念不谋而合。

如今o1似乎证明了一件事，在大模型领域奉为圭臬的“Scaling Law(规模定律)”路线之外，又找到了大模型能力提升的新范式。

大模型的演化方向是什么，为什么“慢思考”会成为趋势？在国际和国内，OpenAI和360分别给出了问题的答案。

OpenAI的明灯，与360更早点燃的篝火

过去一年中，OpenAI公司管理十分动荡，尽管其仍旧不断推出新模型，但很多人并不太感冒。

沿着GPT-4o 路线，行业认为GPT-5 一定反应更快、多模态能力更强。而实现这一路径的最简单办法，可能就是继续堆积数据集和算力，沿着规模定律前进。

所以Anthropic为代表的大模型，模型参数越来越大，在编程和写作等领域也有一定效果，某种程度上实现了对4o的超越；Grok也开始堆积算力，马斯克豪言千亿投资超级GPU超级工厂，新模型超越OpenAI。

这么做意味着，大模型变成资源密集型产业，这显然不是大模型被创造的初衷。

这其中的关键，可能是传统 LLM还鲜有意识到，整个输出都通过 RLHF/RLAIF（人类反馈强化学习/ 人工智能反馈强化学习）机制进行奖励/惩罚，所做的可以称为结果监督（你向模型提供强大的推理示例，然后使用这个机制）。这是Anthropic 旗下Claude 3.5 Sonnet所采取的路线，也是大部分模型都在采用的模式。

如果将推理分解为具体步骤时，“过程监督”就被提炼出来。OpenAI 押注未来的发展模式就是过程监督，代表大模型产品为o1。这也是o1的最大特性，在推理环节，将行业算力从 “Scaling Law(规模定律)”向“Inference law(推理定律)”环节转移。凭借self-play RL（自我博弈学习）和CoT（Chain-of-Thought,思维链），将推理环节效果提升到更好。

从下图可以看出，GPT系列更侧重在预训练（Pre-Training）环节发力，体验感则是更快回答简单问题；而草莓系列则侧重推理（Inference）环节，体验感则是慢速回答复杂问题；二者呈现出了不同的发展趋势。

谁更重要？谁是未来？周鸿祎认为这不是取舍关系，OpenAI 发展遵循的可能是“双系统理论Dual Process Theory”，核心在于两种系统并非独立而是协同运作。这句判断似乎是对OpenAI为何新造草莓系列大模型，更恰当的解释。

正如诺贝尔获得者、《思考，快与慢》一书作者丹尼尔卡尼曼曾说，人类大脑有两个系统，分别是系统1和系统2，前者利用直觉和本能，高效处理95%的问题，而系统2则是复杂场景的理解，能处理5%很难的问题。

OpenAI在GPT-4 后明显感知到，这系列为代表的1系统，进步难度变大。而草莓为代表的2系统，才刚刚开始。由此推测，其内部构建的更加智能的模型，或许就是模仿人类的大脑形式，用 GPT和o系列结合思维链的融合系统，前者用于“快思考”，后者实现“慢思考”。

从命名思路也可以佐证，OpenAI o1并不是OpenAI 的下一代产品，1代表奥特曼希望重置为1，是OpenAI在慢思考系列的实力展示。而4o则代表的GPT系列，还是快思考模式，未来GPT-5将是快思考与慢思考结合，GPT和O系列模型协作展现出来的新模型。

和OpenAI用两大系列模型结合的路线相似，360借助更早发布的CoE（Collaboration-of-Experts,专家协同）架构，实现了思维链+多系统协同，集合了数量更多的大模型和专家模型，实现“快思考”和“慢思考”。

多系统协同中的大模型并非是360一家提供，而是聚集了国内主流大模型厂商，包括百度、火山引擎、腾讯、阿里巴巴、华为、智谱AI、月之暗面、MiniMax、百川智能、零一万物、商汤科技、科大讯飞、好未来、Deepseek、面壁智能在内的最强“复仇者联盟”。

标志事件是8月1日，周鸿祎在“ISC.AI 2024”上，宣布与国内16家大模型厂商达成合作，共同组成“CoE大模型联盟”。

在提到多模型协作实现慢思考这一命题，周鸿祎在短视频内容中这样举例解释：

“如果让一个真人，不假思索的回答问题，要求他写作文不打草稿，或者复杂的数学题，没有一个黑板写满演算步骤，实际上他也做不到的。”所以，周鸿祎很早思考多模型发展的思路：

“我们很早就在行业里提出了这样一个（方案），利用智能体框架，结合大模型，打造慢思考模式的技术路线。现在看来，完全被OpenAI给验证了。”智能体就是那块黑板，多模型协作过程就是演算步骤，周鸿祎提出了自己的慢思考模式。

这一思考下，大模型联盟逐渐发展成为「多模型协作」模式。将不同能力的大模型整合成360AI搜索等产品，对外输出智能服务，让多个大模型协作互补而非竞争发展。

周鸿祎率先意识到下一代大模型的发展，并不是只有“大力出奇迹”这一条路，与今天OpenAI的思路不谋而合，草莓大模型验证了周鸿祎的思考。

多模型协作，360在产品端验证威力

大模型发展到今天，一道“9.11和9.9谁大”，简单的比数字大小的问题，难住了主流的大部分模型，普遍回答错误。

在360AI搜索上问此问题，依靠多模型做检索纠错，可以正确回答出这一问题，而这一问题，4o目前还是回答错误。

对于大部分大模型来说，这个问题可以通过微调直接修正，但真正处理这类问题，一种是推出o1这种推理能力非常强的模型，一种是利用大模型的协作模式，比其他单个大模型厉害，也能解决这个问题。

后一模式效果真的很好吗？在测试中，鲸哥问了今天最热的新闻，美联储降息50个点意味什么。在启用深度回答后，360AI搜索开始启动多任务智能体，背后就是多模型在协作。

据了解，在一次AI搜索的背后包含了至少7-15次的大模型调用，并对任务进行拆解，比如这次将问题先是意图识别，然后是构建了多个工作流回答每一个步骤，再使多个大模型协同运作，让每个模型给出擅长领域的答案，最后在对回答排序，输出一份完整答案。

“一个模型负责回答一个答案，第二个模型负责对这答案负责审视、反思、挑错，第三个模型根据前两个模型的辩论，总结出最后的答案。” o1大模型展示的慢思考逻辑，与如今的360大模型的原理十分相似，都是竞智路线上的创新。

再举例360在AI翻译中的步骤，执行翻译动作、过程中反思、结果整合润色。背后的逻辑，也是利用大模型竞技场不断battle的模式，当大模型记忆库中没有更好的回答，新的大模型正通过竞争“上岗”，选择出做好的答案。

这套复杂的慢思考，在很多场景中效果都更好，比如用户的Prompt写的不清晰，CoE架构能够通过意图识别模型，更加理解用户的实际需求。用户问的问题太复杂，通过任务分解路由模型，让各大模型、小模型之间协同配合。很多单一大模型难以回答的问题，也能被360混合大模型正确回答。

所以周鸿祎的“慢思考”，不是把16家厂商摆出来，让用户觉得哪个好用就用哪个，而是用新的架构组合成了互补协作的体系，让16家大模型变为乘法关系，发挥出更大威力。

这正是目前的AI搜索混战中，360AI搜索得以快速脱颖而出的原因之一。

好用才是用户喜欢用的根本，360AI搜索的月独立用户数(UV)已经超过8000万，是国内第一个达到这个量级的AI产品，将一众国产AI ChatBot甩在身后。据Similarweb 数据显示，2024年8月份，360AI搜索用户访问量已超 2 亿，达 Perplexity AI 三倍以上，蝉联全球最大的AI原生搜索引擎，并且势能不减，还以113%的月增速，成为全球增速最快的主要AI搜索引擎。

或许很多读者还是会产生疑问，是否只要引入更多模型，AI生成的回答质量就会更好呢？实际上，可能并不一样，多个大模型组合在一起生成更好答案的关键，在于是否具有一套混合大模型智能调度系统，这是360的独家秘密武器。

不走寻常路，360自己的『草莓架构』

大模型多模协作，实际上也早有共识。但大家走的路线并不一致。

Minimax最早在国内上线了MoE（Mixture-of-Experts）架构的稀疏混合专家模型，此后腾讯混元等各家大模型都开始积极跟进。国外也是MoE架构居多，MoE成为国际主流多模架构。

但MoE模型的专家之间存在竞争关系，选择单一或者少数模型作答，模型本身的天花板以及错误率问题，都会影响最后的结果。这就难以避免幻觉问题，也难以实现“慢思考”。

相比之下，360推出了自己的『草莓架构』，不同于MoE，也即前文提到的CoE。

近两个月前发布的CoE（Collaboration-of-Experts,专家协同）架构中，就构建了一个通过思维链和“多系统协同”的方式实现“快思考”和“慢思考”的混合大模型调度系统，能让多个模型分工协作、并行工作，执行多步推理。

CoE模型推理过程图源：《Collaboration of Experts: Achieving 80% Top-1 Accuracy on ImageNet with 100M FLOPs》

除了具有“慢思考”能力，CoE架构相较于MoE架构还拥有更精细的分工、更好的鲁棒性、更高的效率和可解释性和更强的泛化能力，可以在加快推理速度的同时，降低API接口和Token的使用成本。

综合来看，360首创的CoE架构则集合了数量更多的大模型和专家模型，是通过思维链和“多系统协同”的方式实现“快思考”和“慢思考”。它的模型分工协作的方式，使得多家大模型发挥出各自的优点，并经过step by step 思考和纠正，最终总结给出更优质答案。

这意味着，CoE架构比OpenAI o1更早应用了思维链和反思决策模式，并且更进一步地应用在了360的AI搜索、AI浏览器和AI助手上，打造了AI原生搜索引擎的全球第一之外，还构建了国内首个大模型竞技场平台，效果确实突出。

大模型联盟兴起，抗衡OpenAI灭霸

国内此前也有平台宣布接入集齐了大模型领域的全部实力玩家，也就是说接入了几家独角兽企业的大模型产品，但实际上只是让产品接了入几家大模型的API，用户只能凭感觉选用一家的产品——和直接访问其网站或App没有区别。

而360集合百度、火山引擎、腾讯、阿里巴巴、华为、智谱AI、月之暗面等16家国内主流大模型厂商，是要组成战斗力升级版的复仇者联盟。

目前，所有这些厂商的54款大模型产品，都是接入了CoE架构，并基于该架构实现了1+1>2的协同效果，未来更是将全量接入100多个。

从产品层面看， 360 CoE 架构可以被分成两个部分：其中，语料积累与算法技术，主要依靠的是360智脑在内的16家国产大模型的接入，类似分工不同的特种兵；而360则充当指挥官的角色，通过意图识别模型，来实现对于用户意图更加精准的理解；通过任务分解和调度模型，实现了对于众多专家模型网络（100+LLM）、千亿规模知识中枢和200+第三方工具的智能调度，进而实现比MoE更高的灵活性和效率。

如今，360已经在CoE路线上持续突飞猛进，近期又推出国内首个“大模型竞技场”（ bot.360.com），支持调用54款大模型进行“同台竞技”，模型竞技场也很有意思，上线了“组队较量”、“匿名比拼”、“随机对战”等功能，成为更加公平的模型竞技平台。

尤其是“组队较量”功能，使得用户可以自由选定3款大模型，和任意一款或两款大模型较量。

在每场竞技中，用户可以一次性添加任意2-3个对比模型，也可以随时移除或替换为其他模型。模拟o1的自我博弈和强化学习过程。

竞技场锻炼了不同模型在不同问题下的最佳组合，用户直观感受是360混合大模型越来越厉害。事实也是如此，距第三方测试，该360混合大模型在翻译、写作等12项指标的测试中取得了80.49分的综合成绩，超越了GPT-4o的69.22分。

当然，360大模型联盟并不是单纯地聚在一起“跑分”，站在当下看未来，具有三层深意。

1、帮助众多大模型找到应许之地，不再困于流量；

很多大模型缺乏落地场景以及用户，尤其是大模型创业公司。而360的AI搜索、浏览器、安全卫士等至少拥有10亿用户的入口，众多大模型借此找到了应许之地。“入口的流量，我觉得一步一步来，我们先开放两大核心入口，一个是桌面，一个是浏览器，未来还会开放360搜索、360智能硬件。”周鸿祎在联盟成立之初，就表示会逐步开放更多场景。

2、数据飞轮帮助大模型进化；

当下大模型的发展，囿于更好的数据集而难以进步，而o1合成数据集带来的效果明显，对行业是个刺激。对于国内头部大模型厂商来讲，360AI搜索就是基于CoE架构，能够给大模型厂商持续提供用户、数据和优化方向。这在合作模式上就会更深入，其他家大模型公司不会担心被工具化。

3、“以竞促练”提升行业水准

基于CoE架构的模型竞技场，大模型竞技场给国产大模型提供了一个“以竞促练”的平台，塑造了“比学赶帮超”的氛围。对于各家大模型来说，不再是分散竞争，保密发展的情况，而是每天都可以跟进竞技场的结果，调整自己的发展。

现阶段，在国际，从大模型成果、LLM路线选择以及落地工程化等维度，OpenAI向通过GPT-4o、o1等向业界证明，它仍在领导着行业进步。

于此同时在国内，360一手抓产品，借助CoE架构落地360AI搜索、360AI浏览器等行业或全球领先的产品；一手建平台，成立大模型联盟，打造AI助手，建立国内首个大模型竞技平台，推出多模型协作等等，为国产大模型的持续进化提供了平台和方向。

时至今日，在AI大模型这条举足轻重的赛道上，虽然还有各种困难横亘在国内厂商面前，但是我们已经拿到了和国际水平几乎平齐的身位，拥有了一较高下的实力。

AGI之路虽然，行则将至。未来AGI的黄冠上，必将有属于我们中国大模型厂商的明珠！