为什么Manus底层模型没用DeepSeek？——Manus六问六答 - 53AI-AI知识库|大模型知识库|大模型训练|智能体开发

在Manus迅速出圈之后，各种信息漫天飞舞，有严肃分析和解读，但并不多，更多的是各类博主（特别是短视频博主）震惊体式的摇旗呐喊。

那么在Manus各类信息过载的同时，潘寒试图从各种信息中抽出部分有价值的进行分析，总结了六个问题。

力求让读者看懂“是什么”之后也真正搞懂“为什么”，同时在眼花缭乱的AI信息爆炸中破除FOMO焦虑——

一、为什么Manus底层模型没用DeepSeek？

Manus各类出色任务背后到底用了什么模型？

根据相关博主的公开信息，在3月6日上午官方小范围产品沟通时披露，Manus背后主要用了Claude（api）和自己后训练的阿里Qwen。

很多读者会有疑问——为什么Manus不用DeepSeek呢？又强大又便宜。

为什么呢？

在2月22日，Manus的联合创始人季逸超在混沌学院进行了一次对话，在这次对话中，季逸超分享了如下观点——

“DeepSeek并不是万能的，具体问题要具体分析，比如要做Function calling（函数调用），选择千问Qwen模型可能更合适。”

“DeepSeek的模型（无论V3还是R1）本身更侧重推理能力，在多模态、函数调用、长期规划等能力上并不出众。”

“从DeepSeek最近的V3论文看，其架构已与传统模型有显著差异，但除官方外，国内推理厂商的Infra优化普遍不足，仍需大量工作。”（彼时DeepSeek开源周还没有开始）

个别无脑读者不要据此就将Manus和DeepSeek对立起来（回去认真看原文），季逸超只是在就事论事地分析他们选择的技术路线背后的逻辑。

可以看到，Manus之所以没有选DeepSeek作为底层模型，是因为DeepSeek擅长的是推理，并不擅长Function calling（函数调用）、多模态、长上下文。

而这三个东西恰恰就是Manus这类高度自动化Agent产品非常看重的特性——

Function calling（函数调用）可以让Agent实现远超传统Chatbot的多样任务。

长上下文则可以让Agent实现多步骤的复杂任务，如果一个任务分7步，上下文不足，做到第6步已经忘了第1、2步，那很多任务分分钟歇菜。

多模态就更容易理解了，Manus的很多任务是要读网页、看视频的，多模特让Agent有了眼睛。

在这三点中，长上下文所驱动的长链规划能力显得更重要一些，Monica（Manus母公司）创始人肖弘在张小珺的播客采访中也非常详细地阐述了这一点——

“我们测试下来全世界只有Claude3.5 Sonnet能够在把我们刚刚所说的那个架构跑起来，我们内部管这个叫Agent能力，传统的Chatbot它训练过程中，它就是假设一轮对话就要尽可能解决你的所有问题的，只有Claude3.5 Sonnet有长程规划能力和逐步解决问题的能力。”

根据Twitter博主Alexander Doria的说法——

OpenAI的DeepResearch之所以表现惊艳，是因为其并不是简单地在GPT基础上增加了外部搜索功能，而是训练了一个全新的模型学习了基础的浏览能力（搜索、点击、滚动、文件解析），以及如何通过强化学习来整合大量网页信息，生成结构清晰、来源可靠的研究报告。

从这个意义上，国内模型依然在针对Agent所需特性上有巨大的训练空间。

二、给Manus灵感的Devin是个什么？

Devin是去年AI编程领域一个热度挺高的自动化Agent产品，它主要集中在代码领域，号称能顶一个程序员。

它有三个特征——

第一，它是异步的，即你不需要像聊天产品一样时刻和它同步交互，交给它一个任务，你就可以干别的了；

第二，Devin有云端虚拟机，这一点很重要，这意味着你电脑关了它也可以继续工作，不需要动用户的电脑；

第三，它能随时打断，需要帮助的时候会寻求用户帮助或确认，同时会根据用户反馈积累Know How的知识。

而这三个特征，Manus全部都有，肖弘也坦言团队从Devin和Cursor中得到了灵感。

Devin在产品定义上是相当超前的，超越了Coze、Dify等产品的开发理念，也不同于cursor等编程产品。

关于Devin，肖弘是这样评价的——

“Devin有点可惜，它直接选择了最硬核的工程师群体，也不能叫可惜，我相信他在美国也是发展的很好的一家公司，但我会更愿意选择通用而不是垂直到一个具体的行业，我认为这个架构是很符合我对Agent的想象的，而他应该是给普通用户就能用的一个产品。”

戴雨森是Manus投资人真格基金的合伙人，他在播客十字路口中用了一个非常夸张的表述评价Devin——

“它的出现可能标志着人类历史的一个重要时刻。”

我当时很诧异，为什么戴雨森会用这种虎狼之词？

他自己的解释是——

人类历史上发明了很多工具，甚至有人说人就是能够使用工具的动物，工具基本上分为两种——

第一种就是说需要持续注意力的工具比如说像电钻，像锤子。

第二种就是说叫做机械重复的自动化工具，比如说洗衣机、自动售货机流水线，它可以去不需要我的关注，但是它只能解决重复的东西。

人类一直在寻找第三种——不需要持续的注意力，但同时又能自我规划去解决问题的。

而Devin就是这种真正自主的Agent，即Agent中的Agent。

没错，工程层面的创新意义其实被低估了，事实上，这一轮AI改变最为深刻的行业就是AI Coding，而支撑这一改变的关键变量就是Cursor这样的应用层产品创新。

Devin毫无疑问是一个创新的产品，也有很多报道，但问题是——为什么只有Monica团队想到要学习借鉴并且第一个把它做起来了？

这是很多国内大厂、中厂团队需要反思的。

三、如何理解AI时代的“安迪-比尔定律”？

Manus团队的张涛在即刻上发了这么一段——

“去年底我开始鼓吹今年的推理算力需求不是十倍增长，而是千倍。大部分朋友都觉得我疯了，这个非共识让我们走上了一条很不一样的道路。”

Agent对token消耗是呈指数增长符合肖弘在接受采访时称的AI时代的“安迪比尔定律”——Andy gives, Bill takes away”。该定律说的是在PC时代，英特尔的安迪格鲁夫将芯片性能提升1倍，微软的比尔盖茨就会将软件复杂性提升1倍。

AI时代也一样，LLM厂商通过性能优化将token的生成成本降低了10倍，而Manus为代表的Agent则会让token的消耗量提升10倍。

与PC时代不同，AI领域这一定律速度更快，PC软硬件升级周期通常为18个月，而AI模型和应用迭代周期缩短至2-6个月。

Manus为代表的Agent的发展其实也遵循了“杰文斯悖论”——蒸汽机效率提升反而刺激煤炭消耗总量增加，即当资源使用效率提高时，不会减少资源总消耗，反而会增加。

基于以上的推导，从更长远的角度，我对国内Agent的发展保持理性乐观——

哪怕如张涛所预测：推理算力需求呈千倍增长，以国内向来的卷价格、卷成本的优良传统，“中国卷王”们有望在下一轮Agent大战中获得结构性成本优势。

四、大厂抄Manus作业容易吗？

很多人说，这个几十个人的团队做出来的东西，大厂很快就可以复制。

事实上，我认为这个复制的难度不小，原因在于——

1.复合经验：

Monica团队的经验非常复合，Monica本身的产品就是对接各家模型的，对不同模型的能力边界的理解会更深刻。

同时该团队在长期与浏览器插件打交道过程中对浏览器产品异常熟悉，甚至立项探索过类似Arc的AI浏览器的项目，Manus的联创季逸超在NLP和机器视觉领域沉浸多年。

而Monica的定位在海外，这也让其更容易对海外Agent产品的进展保持高频关注。

2.需求理解：

某种意义上这是Monica团队的基因，这种对产品需求的非常接地气的理解从创始人肖弘早年产品“壹伴助手”和“微伴助手”，我早期公众号时代用的就是“壹伴助手”，的确方便实用。

如果你深入用过Monica，你就能更直观地感受到产品巧思所展现的产品功力——比如，在Monica，你是可以一个指令，唤起多个模型答案的；

再比如，它支持常用的提示词进行快捷调用；更不用说其各种非常细致实用的小工具。

国内做AI应用的PM，其实都应该深入研究一下Monica功能和背后的产品理念。

比如，Manus的整个过程支持分享，分享其实没什么，但Manus的分享是支持过程回放的，而且，Manus生成的网页，直接就是可以公开访问的，这些小细节都是团队产品功力深厚的直观体现。

从豆包、Kimi、元宝、文心一言在功能层面的同质化来看，我不认为大厂在短时间内能大幅提升创新能力。

3.团队敏捷性：

Manus在昨天的闭门分享了一个观点——“AI产品的迭代周期超过了大厂的OKR的考核周期”

这句话背后是充分说明，和大厂相比，小团队的扁平团队的敏捷在AI产品的开发中非常关键。

Manus团队不大，产品负责人张涛原来是光年之外的产品负责人，做过8年C端产品，5年B端产品，而Manus的联创季逸超（产品视频中出镜的那位）也是一位技术大咖，十多年前在高中时就单枪匹马手搓过一款产品猛犸浏览器。

创始人肖弘能将这些人组织到一起，本身就证明了其产业认知和团队建设能力，这种隐形的软实力无法单纯靠堆人解决，不要忘了，DeepSeek也就100多人。

以上三点，解释了为什么是Monica团队率先做出了Manus，而这一样一个综合各方面禀赋的敏捷团队，大厂要短时间组件并不容易。

五、Manus接下来会推进大规模融资吗？

我觉得大概率会。

逻辑在于，尽管上面说大厂短时间推出并赶超并不容易，但大厂一定会入局。

如果说Monica原来的“All in One”聚合产品能在大厂看不上的赛道找到相对的舒适区，那么对于Agent这个符合AI产业未来演进方向的主战场，巨头绝无可能袖手旁观。

想一想对标Dify的Coze、元器，想一想对标Cursor的Trae。

不要怀疑大厂卷应用的资源和决心。

DeepSeek毫无疑问动摇了不少大厂、中厂自己训练基座模型的决心，但在应用层，它们的推进力度反而上了一个台阶，腾讯以极快的反应速度饱和式强推元宝就是一个明证。

我们来看上边所说的Devin，它的估值是多少？

答案是20亿美金。

我不知道Monica团队的估值，但按之前的各种公开资料看，大概率是没有到20亿美金这个级别的。

也就是说Manus目前手中大概率并没有和巨头打大仗的资金弹药。

想一想字节这样推土机般的App工厂、想一想国内云厂商无情的降价机器。

假如Manus未来面对一个“价格是十分之一、体验是80%”的大厂竞品，用户的忠诚度无疑是一个修罗场般的考验，而卷价格，只是大厂最常规的操作。

所以，按这个简单的逻辑推断，尽管Monica团队之前在融资层面相对保守（Monica现金流不错），肖弘也多次说要保持自己的节奏，但为了给Manus囤积弹药，团队大概率会进行下一轮融资。

好在这次迅速出圈会给其带来相对宽裕的融资环境，让其团队有可能以较小的股份稀释获得相对充足的资金以对抗巨头未来的竞争。

六、到底应该如何评价Manus的表现？

我们的确看到官方案例中有无数惊艳的案例，同时不同的博主

关于它的表现，我觉得有三个维度或许有助于我们更客观地观察它的表现——

1.GAIA的Benchmark分数决定了它的水准是在基准线以上的；

GAIA由Hugging Face等研究团队于2024年联合AutoGPT推出，它包含466个多领域、多模态的问题及标准答案，只在测试Agent的解决问题的能力。

GAIA这是一个反传统的评测，与传统AI基准测试（如法律、数学等专业领域）不同，GAIA专注于对人类简单但对AI困难的开放性问题，这些问题模拟日常场景。

比如——“最新的乐高维基百科页面中有多少张图片？”

再比如——“在美国国家航空航天局 2006 年 1 月 21 日的天文照片中，可以看到两名宇航员，请问其中年龄更小的宇航员在太空中待了多少分钟，四舍五入精确到分钟。”

Manus在所有三个难度级别上都实现了超越OpenAI的性能，这个成绩无疑是让人印象深刻的。

2.高分并不直接决定个人使用的实际表现；

比如从实测博主李继刚、阑夕等生成的案例看，它的各项表现完成的不错，无论是生成可交互的科普网页，还是开发文字游戏，完成度很高。

但从花生、果壳的体验看，其中有一些任务完成的并不好，比如，花生让其生成一本书的营销计划，从结果看，很庞大，但细看非常笼统，并没有太多个性化内容，一本书的营销预算是54万，基本不可用。

而果壳的测试也发现Manus在一些任务用存在如下问题——1.过度推理，过于发散；2.信息来源质量不够；3.无法按要求的格式交付；4.经常需要接管。

3.正确的评价是理解其边界、管理好预期；

Manus目前的架构决定了它的边界在深入研究、轻度合成的信息处理领域，属于Artifacts+DeepResearch+Operator+Claude Computer Use的轻度缝合怪，还不是完全体。

比如它的虚拟机操作范围的核心还是浏览器，你让它剪个片子、帮你玩《艾尔登法环》这类输入就属于并没有理解Manus的能力边界。

关于Agent，一个极简版的理解逻辑是——任务成功率等于任务步数乘以每一步的成功率。

假如一个任务总共要分三步，而底层模型每一步成功率是90%，那么总体成功率就是90%*90%*90%=72.9%，同理，如果单步成功率为70%，总体成功率就变成70%*70%*70%=34.3%。

两年前的AutoGPT之所以不可用，一个重要原因为当时的模型单步骤成功率太低，导致总成功率不可用。

而Manus的发布就基于基础模型过去两年的快速进步，让其在某些单任务上的成功率快速上升，以至于到了基本可用阶段。

Manus恰如其分地抓住了这个时间点，同时将其推向了消费级市场。

关于Manus的体验，一个容易忽视的要素是价格——

根据官方闭门会披露，单任务的成本是2美元，也就是跑一个任务大概花费14块人民币。

这意味着，如果Manus按成本+利润定价，用户最终用到或许会超过这个价格，那么在这个价格下，我们再来看其产出质量，无疑需要重新评估。

静待后续市场检验。

结语

我昨天看到这样一条Twitter——

没错，我大体是同意这个观点的，“你不拥抱变化，变化就会壁咚你”，但我反对应激性焦虑。

除非你本身就是做AI媒体的，不然如果每一个新热点都要第一时间追，那么你永远追不完。

正确的做法是，一个新东西出来，先让子弹飞一会，然后综合各维度信息判断其价值，决定自己应该多大程度上校准自己的认知和行动。