我要投稿

奇点降临，Manus 诞生背后丨青源Workshop观点集锦

发布日期：2025-04-08 06:00:50 浏览次数： 1523 作者：智源社区

第32期青源Workshop以《迈向Super Agent，从Manus谈起》为主题，活动邀请到MetaGPT作者诸葛鸣晨、浙江大学软件学院百人计划研究员张圣宇、西湖大学AGI实验室研究员蒋文嘉、开源社联合创始人林旅强、人工智能研究员&创业者史业民以及智源社区白羽中共同参与。这场技术浪潮不仅点燃了Agent领域的热情，更引发了关于落地应用与未来方向的思考。当通用智能体从概念走向现实，我们究竟站在技术革新的起点，还是站在人类协作模式变革的前夜？

（回放链接：https://event.baai.ac.cn/live/916）

Q1：如何看待manus引发的这轮 Agent 热潮？

蒋文嘉：Manus 的爆火在agents领域引起较大关注。这反映出大家对 Deepseek 后时代新一轮热潮的期待，期望出现实用的助手。但热潮褪去后，我们看到了 Camel AI 团队等一些迅速复刻 Manus 的工作。这说明研发这类技术的门槛不高，产品端的创新和落地更为重要，需要进行一些易用化的设计，让这类应用更贴合用户需求。

Q2：从技术层面上看，为何可以迅速复现 Manus？

诸葛鸣晨：实际上，Manus的爆火来源于恰当的窗口期以恰当的方式宣布了有趣的产品，从流量的角度出发，他们取得的成功不好复刻。此外，他们早期本身有Monica一款成功的产品，使得他们懂得怎么迎合用户。

从技术角度看，开源社区此前已积累了大量前期工作（例如， SOP、workflow 、Function calling、MCP，以及对计算机和浏览器的调用），在算法上取得了很大进展。因此，开源社区的现有工作等虽能达到展示 Demo 的程度，但在算法和产品力上与 Manus 仍有差距。

Manus 声称要研发通用智能体，这很有勇气。因为他们真正的产品竞争对手不来源于开源社区，而是来源于有更多用户的顶级大厂，因为这样的产品级的工作容易被大厂迅速复现。

Q3：Manus 的诞生引发了一波 Agent 创业热潮，如何看待这个现象？

史业民：开发 Manus 这种通用 agent 难度较大，这对模型能力要求极高。即使调用当前最强的 API 也难以稳定运行。但从落地角度讲，若定位为特定功能或小场景 Agent，可借助场景先验与约束实现稳定运行，更容易落地。

Q4：Agent 的核心能力是什么？要实现 Agent 的落地应用还有哪些能力需要补齐？

张圣宇：Manas 是一个工程级的整合创新，Agent 的落地还有很长的路要走。关于AI agent工程落地的挑战，我认为有以下三个层面：

1.推理效率不足：目前 AI agent 的推理效率还远远没有达到极限。

2.模型协同问题：AI agent 涉及多个模型协同，还可能调用一系列工具模型或智能体。模型协同的组织规划、协同效率以及试错回滚等方面还存在一些问题。

3.智能体的基础能力：规划、反思、记忆等智能体基础能力也有比较大的提升空间。

Q5：近年来，Agent 领域有哪些重要变化趋势？

林旅强：智能体技术发展时间虽长，但现代意义的 Agent 出现较晚。2023 到 2024 年有了一些探索性的尝试，今年Manas、Meta GPT 等工作逐渐形成更稳定的开发框架，更明确 MCP 等方法在多智能体系统中的作用。

过去学术界和工业界对 Agent 的定义模糊，Manas 提供了合理的 Agent 应用范式和新的想象空间，推动行业发展。

目前，业界在寻求各类 Agent 的开发者和应用场景，根据任务需求选择合适的 Agent 组合。任务拆解方式多样，行业还在探索更优的任务处理方式，但方向已逐渐明朗。

诸葛鸣晨：每个人对 Agent 的理解不同。从普通用户视角来看，会认为基于大模型的垂类工作流是 Agents。但我认为近年来 Agent 的发展分为三个阶段：（1）2023年大多数 Agent 基于workflow 或 SOP 定义每个 Agent 的职责，将它们串联起来，形成相对固定的流程解决复杂任务。（2）2024年大家开始研究 Agent 的工具调用是tool use和function calling的阶段，Antropic 年底提出了MCP。（3）2025 年人们开始研究类人 Agent，比如使用 terminal 和sandbox，使 Agent 能够在真实环境中执行任务，开启了新的研究和应用方向，打通通用智能体的瓶颈。

史业民：Manus 的定位的场景还是太宽泛了。“运行时间长、一直犯错”这种已知的问题也许会随着模型能力的提升儿改善。2025 年确实是 Agent 能够开始落地的一年。Agent 应用的落地必然是一个工程加学术的问题。通过 RL 的方法研发专用的agent，可能效果会显著好基于 pipeline 的方法，可能能够相对比较完美地解决死锁的问题。

张圣宇：从长期来看，终极的落地形态可能会偏向 function calling，但 GUI agent 是一个很好的过渡形态。GUI 界面是为人设计的抽象，但是为 Agent 和底层后端功能、API 之间构建一层为 Agent 服务的抽象可能是未来的终极形态。

Q6：如何研发面向 Agent 的抽象层？

史业民：这个抽象层跟 Anthropic 想做的 MCP 本质上逻辑相似。现在互联网世界是面向人在设计，而未来肯定是需要面向 AI 设计的层，MCP 是其中一种尝试，也许还有其它可以尝试的方向。

诸葛鸣晨：Function calling 对于研发垂直应用更加稳定高效。从研究角度看，让 Agent 实现类人应用的探索空间更大，大家也期待 Agent 能像人类一样与电脑交互。若 Agent 仅能实现 function calling，基于每个 API、工具进行选择，它能做的事情很固定。而若 Agent 能使用电脑，可能会发展出自己的「涌现能力」。这种能力体现在，Agent 在交互中可能发现更高效的信息获取方式，如通过命令行从终端查询信息，而非遵循人类最初设计的点击浏览器搜索关键词等操作。在这个过程中有可能出现有趣的现象，比如：人类习惯的方式对 Agent 可能并非最优选择，反之亦然。

林旅强：开发者与普通用户有不同需求。针对前者的需求需要明确输入输出，后者则更倾向泛化的应用。大模型的泛化能力使普通用户也能以工程化方式使用技术。未来，Agent 可能通过自主学习找到最适合自身的方式，而非完全依赖人类的设计调用 API。

Agent 对电脑的使用完全模拟人类操作，需处理多模态和屏幕坐标等问题，过程复杂且效率低，使用 API 的逻辑可能与人类操作不同。因此，需要探索一种更适合 Agent 的优化方式。目前相关技术仍处于初期阶段。

Q7：目前 Agent 技术的应用发展到了怎样的阶段？未来还会往哪些方向发展？

史业民：工业界和学术界对 Agent 的理解存在差异，工业界多采用RAG加workflow的方式，而真正相对自由的 Agent 具有自主性，当前的 Agent 自主性较弱。随着技术成熟，未来开发自主性强的Agent 的成本和门槛会降低，输出更高质量结果。使基于RAG或workflow的方法也会受益于更自主的方案，应用侧也将从这种技术发展趋势中获益。

诸葛鸣晨：对于垂直应用，使用 workflow、SOP 或 pipeline 比完全自主化的 Agents 更稳定高效。因为对于简单请求，复杂的自主化处理反而会降低用户体验。

张圣宇：Agent 技术的效率问题至关重要，主要体现在技术能力和工程落地两方面。一方面，Agent 的推理能力远未达到上限。另一方面，效率问题阻碍了技术的工程落地。Deepseek 因 FP8 精度、Mo E等工程创新提升效率而迅速走红。因此，提升模型协同和大模型本身推理的效率是关键。

蒋文嘉：模型的上下文限制是 Agent 在多轮交互后表现不准确的原因之一。当前的优化手段，如扩大模型底座能力、使用 RAG 或插入中间层等，可在一定程度上缓解该问题。此外，在不断反思和优化模型的过程中，效率和上下文容量是两个关键考量点。

Q8：请畅想一下，Agent 爆发的高光时刻会是怎样？理想的 Agent 应该具备哪些特质？

史业民：Agent 的爆发在接下来几年大概率会发生，前提是模型能力的提升。未来的理想状态是分布式Agent 的出现，即每个平台、个人或公司都有一个 Agent，它们之间进行多轮、分布式的交互，最终为用户提供答案。这样可以真正帮助人和企业解决问题，而不仅仅是作为知识库提供参考。这种转变是从对话到直接解决问题的质变。

林旅强：未来，每个人有望成为“超级个体”，借助不同agent完成任务和决策。届时，人们通过组合运用 Agent 来实现目标。由于agent需消耗资源，个人需根据自身能力和资源选择合适的 Agent。因此，提升使用 Agent 的能力，合理调配资源，将是个人和企业提升生产力的关键。

张圣宇：人在回路对于 Agent 应用落地很重要。普通大众与专业人士对产品的期望不同。GUI Agent 是很好的过渡形态，即使用户不信任或不了解技术，也能看到执行过程。即使未来 Agent 更智能，产品落地仍需考虑大多数用户的接受程度。

Q9：要实现真正的 Agent 落地还需要多久？

史业民：目前已经有一些 Agent 落地了。通用 Agent 因成本高目前难以广泛应用，但在专用场景下已展现较高成功率和实用性。Agent 的研发有很多阶段，今天的 Agent 不是完全自主控制的，仍然处于初级阶段。

蒋文嘉：AI 助手在特定场景下已实现落地，在垂直领域表现出色。OpenAI 的路线图显示，L3级别的agent可采取行动，L4能激发人类生产力，L5则是以多 Agent 系统形式出现。

诸葛鸣晨：Agent 的形态会不断进化，功能也会越来越多。未来，Agent 可能会作为独立个体融入人类社会。到那时，Agent 不仅要帮助人类，还要适应社会结构、参与经济活动。如果 Agent 的功能被使用，它需要获得等价的报酬来维持自身在社会中的存在。这种报酬机制将成为驱动 Agent 自我进化的关键。如果 Agent 能发展到这个阶段，它的进化将不再需要人类通过算法驱动，而是像有生命体一样，能够自主生存并融入社会，甚至形成自己的社区。

林旅强：超级 Agent 需具备长期记忆，可累积数据形成独特经验。数据是 Agent 的核心，算法和工具相同，输入不同数据会产生不同效果。其次，自主学习和优化能力重要，Agent 应能自我调整策略并助人类。再者，超级 Agent 需能跨任务协作。此外，Agent 的可解释性不可或缺，需能向用户解释其决策原因。最终，结合具身智能，Agent 应具备真实世界操作能力。未来社会经济将因 Agent而变，可设计类似区块链 token 的经济机制驱动 Agent 进化，甚至在元宇宙中形成独特经济体系，促进 Agent 自我进化。

蒋文嘉：我们可以通过让 Agent 自我竞争实现更好的多 Agent 协作。大多数成功的 Agents 产品背后都有一个特性，即按照人类的工作模式进行开发。人类积攒了 20 多年的软件开发经验，这种范式可以成功迁移到 Agent 领域。或许可以像林老师说的那样，构建一个更加贴近人类真实社会的体系，把虚拟的 token 转化成 Web 3 里面的 token，这可能是一个更好的选择。

青源会是由智源研究院支持成立的学术组织，于2020年6月正式创立。它致力于为全球从事智能科学及相关领域的青年学者打造一个专注创新的交流与协作平台。秉持“发现关键问题、搭建合作网络”的使命，青源会始终聚焦青年学者的成长。青源会采用邀请制，经过五年发展，目前已拥有近200名正式会员和1700余名预备会员。

53AI，企业落地大模型首选服务商

产品：场景落地咨询+大模型应用平台+行业解决方案

承诺：免费场景POC验证，效果验证后签署服务协议。零风险落地应用大模型，已交付160+中大型企业