微信扫码
添加专属顾问
我要投稿
探索AI领域最新突破,揭开Manus诞生背后的技术变革。核心内容:1. Manus引发的Agent热潮及其深层原因2. 技术角度复现Manus的挑战与机遇3. AI Agent的核心能力与落地应用挑战
Q1:如何看待manus引发的这轮 Agent 热潮?
蒋文嘉:Manus 的爆火在agents领域引起较大关注。这反映出大家对 Deepseek 后时代新一轮热潮的期待,期望出现实用的助手。但热潮褪去后,我们看到了 Camel AI 团队等一些迅速复刻 Manus 的工作。这说明研发这类技术的门槛不高,产品端的创新和落地更为重要,需要进行一些易用化的设计,让这类应用更贴合用户需求。
Q2:从技术层面上看,为何可以迅速复现 Manus?
诸葛鸣晨:实际上,Manus的爆火来源于恰当的窗口期以恰当的方式宣布了有趣的产品,从流量的角度出发,他们取得的成功不好复刻。此外,他们早期本身有Monica一款成功的产品,使得他们懂得怎么迎合用户。
从技术角度看,开源社区此前已积累了大量前期工作(例如, SOP、workflow 、Function calling、MCP,以及对计算机和浏览器的调用),在算法上取得了很大进展。因此,开源社区的现有工作等虽能达到展示 Demo 的程度,但在算法和产品力上与 Manus 仍有差距。
Manus 声称要研发通用智能体,这很有勇气。因为他们真正的产品竞争对手不来源于开源社区,而是来源于有更多用户的顶级大厂,因为这样的产品级的工作容易被大厂迅速复现。
Q3:Manus 的诞生引发了一波 Agent 创业热潮,如何看待这个现象?
史业民:开发 Manus 这种通用 agent 难度较大,这对模型能力要求极高。即使调用当前最强的 API 也难以稳定运行。但从落地角度讲,若定位为特定功能或小场景 Agent,可借助场景先验与约束实现稳定运行,更容易落地。
Q4:Agent 的核心能力是什么?要实现 Agent 的落地应用还有哪些能力需要补齐?
张圣宇:Manas 是一个工程级的整合创新,Agent 的落地还有很长的路要走。关于AI agent工程落地的挑战,我认为有以下三个层面:
1.推理效率不足:目前 AI agent 的推理效率还远远没有达到极限。
2.模型协同问题:AI agent 涉及多个模型协同,还可能调用一系列工具模型或智能体。模型协同的组织规划、协同效率以及试错回滚等方面还存在一些问题。
3.智能体的基础能力:规划、反思、记忆等智能体基础能力也有比较大的提升空间。
Q5:近年来,Agent 领域有哪些重要变化趋势?
林旅强:智能体技术发展时间虽长,但现代意义的 Agent 出现较晚。2023 到 2024 年有了一些探索性的尝试,今年Manas、Meta GPT 等工作逐渐形成更稳定的开发框架,更明确 MCP 等方法在多智能体系统中的作用。
过去学术界和工业界对 Agent 的定义模糊,Manas 提供了合理的 Agent 应用范式和新的想象空间,推动行业发展。
目前,业界在寻求各类 Agent 的开发者和应用场景,根据任务需求选择合适的 Agent 组合。任务拆解方式多样,行业还在探索更优的任务处理方式,但方向已逐渐明朗。
诸葛鸣晨:每个人对 Agent 的理解不同。从普通用户视角来看,会认为基于大模型的垂类工作流是 Agents。但我认为近年来 Agent 的发展分为三个阶段:(1)2023年大多数 Agent 基于workflow 或 SOP 定义每个 Agent 的职责,将它们串联起来,形成相对固定的流程解决复杂任务。(2)2024年大家开始研究 Agent 的工具调用是tool use和function calling的阶段,Antropic 年底提出了MCP。(3)2025 年人们开始研究类人 Agent,比如使用 terminal 和sandbox,使 Agent 能够在真实环境中执行任务,开启了新的研究和应用方向,打通通用智能体的瓶颈。
史业民:Manus 的定位的场景还是太宽泛了。“运行时间长、一直犯错”这种已知的问题也许会随着模型能力的提升儿改善。2025 年确实是 Agent 能够开始落地的一年。Agent 应用的落地必然是一个工程加学术的问题。通过 RL 的方法研发专用的agent,可能效果会显著好基于 pipeline 的方法,可能能够相对比较完美地解决死锁的问题。
张圣宇:从长期来看,终极的落地形态可能会偏向 function calling,但 GUI agent 是一个很好的过渡形态。GUI 界面是为人设计的抽象,但是为 Agent 和底层后端功能、API 之间构建一层为 Agent 服务的抽象可能是未来的终极形态。
Q6:如何研发面向 Agent 的抽象层?
史业民:这个抽象层跟 Anthropic 想做的 MCP 本质上逻辑相似。现在互联网世界是面向人在设计,而未来肯定是需要面向 AI 设计的层,MCP 是其中一种尝试,也许还有其它可以尝试的方向。
诸葛鸣晨:Function calling 对于研发垂直应用更加稳定高效。从研究角度看,让 Agent 实现类人应用的探索空间更大,大家也期待 Agent 能像人类一样与电脑交互。若 Agent 仅能实现 function calling,基于每个 API、工具进行选择,它能做的事情很固定。而若 Agent 能使用电脑,可能会发展出自己的「涌现能力」。这种能力体现在,Agent 在交互中可能发现更高效的信息获取方式,如通过命令行从终端查询信息,而非遵循人类最初设计的点击浏览器搜索关键词等操作。在这个过程中有可能出现有趣的现象,比如:人类习惯的方式对 Agent 可能并非最优选择,反之亦然。
林旅强:开发者与普通用户有不同需求。针对前者的需求需要明确输入输出,后者则更倾向泛化的应用。大模型的泛化能力使普通用户也能以工程化方式使用技术。未来,Agent 可能通过自主学习找到最适合自身的方式,而非完全依赖人类的设计调用 API。
Agent 对电脑的使用完全模拟人类操作,需处理多模态和屏幕坐标等问题,过程复杂且效率低,使用 API 的逻辑可能与人类操作不同。因此,需要探索一种更适合 Agent 的优化方式。目前相关技术仍处于初期阶段。
Q7:目前 Agent 技术的应用发展到了怎样的阶段?未来还会往哪些方向发展?
史业民:工业界和学术界对 Agent 的理解存在差异,工业界多采用RAG加workflow的方式,而真正相对自由的 Agent 具有自主性,当前的 Agent 自主性较弱。随着技术成熟,未来开发自主性强的Agent 的成本和门槛会降低,输出更高质量结果。使基于RAG或workflow的方法也会受益于更自主的方案,应用侧也将从这种技术发展趋势中获益。
诸葛鸣晨:对于垂直应用,使用 workflow、SOP 或 pipeline 比完全自主化的 Agents 更稳定高效。因为对于简单请求,复杂的自主化处理反而会降低用户体验。
张圣宇:Agent 技术的效率问题至关重要,主要体现在技术能力和工程落地两方面。一方面,Agent 的推理能力远未达到上限。另一方面,效率问题阻碍了技术的工程落地。Deepseek 因 FP8 精度、Mo E等工程创新提升效率而迅速走红。因此,提升模型协同和大模型本身推理的效率是关键。
蒋文嘉:模型的上下文限制是 Agent 在多轮交互后表现不准确的原因之一。当前的优化手段,如扩大模型底座能力、使用 RAG 或插入中间层等,可在一定程度上缓解该问题。此外,在不断反思和优化模型的过程中,效率和上下文容量是两个关键考量点。
Q8:请畅想一下,Agent 爆发的高光时刻会是怎样?理想的 Agent 应该具备哪些特质?
史业民:Agent 的爆发在接下来几年大概率会发生,前提是模型能力的提升。未来的理想状态是分布式Agent 的出现,即每个平台、个人或公司都有一个 Agent,它们之间进行多轮、分布式的交互,最终为用户提供答案。这样可以真正帮助人和企业解决问题,而不仅仅是作为知识库提供参考。这种转变是从对话到直接解决问题的质变。
林旅强:未来,每个人有望成为“超级个体”,借助不同agent完成任务和决策。届时,人们通过组合运用 Agent 来实现目标。由于agent需消耗资源,个人需根据自身能力和资源选择合适的 Agent。因此,提升使用 Agent 的能力,合理调配资源,将是个人和企业提升生产力的关键。
张圣宇:人在回路对于 Agent 应用落地很重要。普通大众与专业人士对产品的期望不同。GUI Agent 是很好的过渡形态,即使用户不信任或不了解技术,也能看到执行过程。即使未来 Agent 更智能,产品落地仍需考虑大多数用户的接受程度。
Q9:要实现真正的 Agent 落地还需要多久?
史业民:目前已经有一些 Agent 落地了。通用 Agent 因成本高目前难以广泛应用,但在专用场景下已展现较高成功率和实用性。Agent 的研发有很多阶段,今天的 Agent 不是完全自主控制的,仍然处于初级阶段。
蒋文嘉:AI 助手在特定场景下已实现落地,在垂直领域表现出色。OpenAI 的路线图显示,L3级别的agent可采取行动,L4能激发人类生产力,L5则是以多 Agent 系统形式出现。
诸葛鸣晨:Agent 的形态会不断进化,功能也会越来越多。未来,Agent 可能会作为独立个体融入人类社会。到那时,Agent 不仅要帮助人类,还要适应社会结构、参与经济活动。如果 Agent 的功能被使用,它需要获得等价的报酬来维持自身在社会中的存在。这种报酬机制将成为驱动 Agent 自我进化的关键。如果 Agent 能发展到这个阶段,它的进化将不再需要人类通过算法驱动,而是像有生命体一样,能够自主生存并融入社会,甚至形成自己的社区。
林旅强:超级 Agent 需具备长期记忆,可累积数据形成独特经验。数据是 Agent 的核心,算法和工具相同,输入不同数据会产生不同效果。其次,自主学习和优化能力重要,Agent 应能自我调整策略并助人类。再者,超级 Agent 需能跨任务协作。此外,Agent 的可解释性不可或缺,需能向用户解释其决策原因。最终,结合具身智能,Agent 应具备真实世界操作能力。未来社会经济将因 Agent而变,可设计类似区块链 token 的经济机制驱动 Agent 进化,甚至在元宇宙中形成独特经济体系,促进 Agent 自我进化。
蒋文嘉:我们可以通过让 Agent 自我竞争实现更好的多 Agent 协作。大多数成功的 Agents 产品背后都有一个特性,即按照人类的工作模式进行开发。人类积攒了 20 多年的软件开发经验,这种范式可以成功迁移到 Agent 领域。或许可以像林老师说的那样,构建一个更加贴近人类真实社会的体系,把虚拟的 token 转化成 Web 3 里面的 token,这可能是一个更好的选择。
53AI,企业落地大模型首选服务商
产品:场景落地咨询+大模型应用平台+行业解决方案
承诺:免费场景POC验证,效果验证后签署服务协议。零风险落地应用大模型,已交付160+中大型企业
2024-08-13
2024-06-13
2024-08-21
2024-09-23
2024-07-31
2024-05-28
2024-08-04
2024-04-26
2024-07-09
2024-09-17