微信扫码
添加专属顾问
我要投稿
Manus AI Agent的革命性升级,从对话到行动的转变。核心内容:1. Manus AI Agent的工程化亮点及其自主性表现2. Agent从对话建议到闭环执行的进化过程3. 新交互方式与工作关系带来的效率提升
不是简单的功能清单,不是肤浅的喝彩,
不去在意两极分化的评价,
而是分享一些真实的感受和思考,
我们来看一看Manus究竟表现如何..
一句话总结:Manus的工程化做得很好,从“对话式建议”到“自主可控闭环执行”的这个升级,让用户能够直观的感受到AI Agent的自主性,代理性是如何具象表现的,ta不再只是回答,而是行动。不再只是建议,而是执行。 把Agent形态向前推了一小步,当然,缺点就是上下文长度依旧不足以完成复杂任务,而部分能力也有待优化。
不知从何时起,我们开始习惯了与AI交谈,习惯了让大模型充当知识库和思维伙伴。
它们变得越来越擅长理解我们的问题,给出有深度的回答。
然而,对话式回答的本质是咨询,而非执行。
大模型给你建议,但执行依然需要你自己动手。
过去我们解决问题的方式是搭建智能体,手动编排工作流,
通过prompt+工作流+插件+各种API的调用去手动编排,
这种方式,对于更多的普通人而言是很有难度的。
Manus的出现,让我第一次体会到了Agent从“对话建议”到“闭环执行”的这一升级。
关于 Manus 是个啥,已经有很多文章进行解读了,比如一泽的Manus 吹散了人与 Agent 之间的迷雾|直播测试 8 小时,我对 Manus 真实实测感想这里不再赘述,我们就当它是 AI 操纵着一个部署在云端的无图形界面的虚拟机 & 浏览器,感知电脑环境,执行各类操作。
给它一个任务,它就能自主规划、寻找资源、实际操作,最终交付一个完整的成果。
我们就像有了一个不眠不休的多面手实习生,
你不再需要关心中间环节,只需享受最终的成果。
这是一种新的交互方式,也是一种新的工作关系。
这种变化并非只是功能的堆砠,而是交互模式的本质跃迁:
话不多说,直接进入到我的实测环节,用结果说话。
为了珍惜机会,我使用“标准”模式(而非“高投入”模式去探索Manus的能力边界)进行了多个不同领域的任务测试。
我想知道在实际场景中,它到底能走多远。
这个任务涉及到专业领域的学术研究,我想测试Manus在处理学术类问题上的能力。
测试链接:https://manus.im/share/HqAtcKFZi6N1asxd8libIZ?replay=1
测试提示词: 为了不影响阅读体验,可以直接看图
测试结果:任务完成度比较高,通过评价来看算是80分的作品。
它先浏览了相关资料,进行了素材收集,然后整理汇总,修改行文逻辑,最后编辑成文输出,由提出这个case的群友@韩跑跑 反馈的评价:
ta研究报告这个格式以及章节分布基本上就是一篇论文,如果稍加改正,加入一些自己的研究数据与结果,可以成为一篇粗略的大学生本科论文了 ta在里面所给出的参考文献真实存在,在网络上可以查到相应的论文(这比OpenAI公司的DeepResearch要好,因为用DR的很多学术参考都是找不到的) 对fomo的研究分析很给力,但是后面的应对策略等建议性的东西有些泛泛而谈,不深入.
一句话评价:这个对学术类型的研究或者是一些科学性的知识的学习(比如说:fomo的神经机制;抑郁症的相关生理表现等等)ta真的是一个非常好的工具,大大节省了自己检索的时间,效率助手。
第二个测试案例是特定地区的经济分析,这类任务通常需要专业的数据收集和分析能力。
测试链接:https://manus.im/share/SYfLdFC6b46xEyyrs2LquK?replay=1
测试提示词:
"我想写一篇'FDI对长三角地区产业升级的影响效应研究',研究外商投资对产业升级影响,请你结合全网资料,进行研究报告的分析和输出,完成论文实证分析全流程。"
测试结果:任务完成。
Manus先收集资料,然后进行数据分析,设计研究方法,完成实证研究,最后撰写并完善了整篇论文。
当然我们可以看到,它的任务清单里面其实有两项任务是没有完成的,具体原因我也不太清楚-.-。
具体这个资料的完成度和分数需要大家打分了。
互联网从业者们很头秃的一件事就是,经常需要对新产品进行研究分析。这次我想测试Manus在产品分析方面的能力。
背景说明:某些岗位经常会遇到一个新产品,然后需要快速调研使用它,或者研究产品的新功能更新。这类工作完全可以交给Manus处理。
测试链接:https://manus.im/share/9ILnKYG7XX0AtRCDjHCa70?replay=1
测试提示词:
"我现在拿到一个新的AI产品,名字叫Monica,请你帮我写一份产品分析报告。 注意,去找它最强的能力点,然后匹配能解决谁的什么任务。对比之前的方案,能力怎么样,其它的类似竞品都有哪些,请形成一份完整的报告。"
测试结果:任务完成质量超出预期。
Manus自主进行信息收集->竞品研究->对比分析->报告撰写->最终交付。
看了下里面的数据和竞品相关信息都是比较准确的,问了问小伙伴,基本上能解决她们的基本诉求,70分的水平。
另一个常见需求是将长视频或长文字内容提炼成精简的短视频脚本。
隐私数据暂不对外分享。
Manus首先进行内容提取与分析,然后创作视频脚本(包括粗剪和精剪),最后整合所有内容形成完整视频脚本。
它甚至还给出了访谈记录中的一些金句提炼(80分),但是在最终主题的完整性上,觉得ta只读了前一半内容,后一半内容有所丢失(50-60分)。
这里我觉得还是跟上下文的长度有极大关系,而且是一次性成文,我没有也懒得跟ta反复拉扯,这样还会起到反效果..
来自朋友的一个实际问题,我想测试Manus在教育领域的能力,特别是课程设计方面。
失败原因是上下文内容过长,系统无法处理。 这个也是目前Manus最大的一个问题,基础模型的局限性导致无法完成更多任务,资源不够导致很多场景实现不了。
从图中我们可以看到前半部分的内容已经完成,我拿给朋友看,表示很出乎他的意料,质量75分以上是有了。
这是另一个课程设计相关的测试,目的是与Manus协作打磨一个优质的课程体系。
"我现在在做一份DeepSeek AI内训课程,课程内容如附件所示,背景XXX,目标XXX,现在我感觉课程不够体系化,上下之间的逻辑感觉比较混乱,请你根据上述的背景信息来帮我实现整个课程大纲的优化,内容一定要足够丰富,有逻辑!"
出于隐私数据方面考虑,链接?先不贴了。
我也想测试一些抽象的问题,看看Manus如何处理这类开放性任务。
测试链接:https://manus.im/share/2Z9Jv3tm8rpEn2WXHkYLpi?replay=1
测试提示词:
"一个普通人,如何用100元,在短期内挣到人生第一个100万元?请给出切实可行且正确的方法,穷尽你的思考,可以全网搜集全部相关资料。"
测试结果:任务完成,中途因为资源问题断了一次,重试后最终输出了结果文件,给出了分阶段分时期的可行性路径,具体能不能挣到100万大家可以试试。。。
看到一泽测试了2048和宝可梦的case,我很想让它无头环境下玩玩CS或者是红色警戒之类的经典游戏,奈何次数不够了..
改天再测吧,看看ta会如何执行..
在实测过程中,我最深刻的体会是:
当你拥有了这样一个Agent之后,你能让它做什么。
如何提出一个好问题,如何实现一个有意思的场景,如何解决一个痛点问题,就是所有人需要考虑的了…
我看到很多人提出“制作一个好玩的游戏”、“做一个牛X的网站”这种虚无缥缈的需求,
就好比许愿生子,出来的是"灵珠"还是"魔丸"全看运气。
这种测试方式其实是对工具的误用。
真正有效的使用方式是提出明确、具体、有边界的任务。
即使是最强大的工具,也需要明确的指导才能发挥最大价值。
等等,我们需要正确认识到目前Manus的一些局限性,才能更好地应用,有一些问题是目前大模型和Agent类都会面临的,期待后续能有很好的解决方案。
很多人说 Manus 用的这些技术并无壁垒,甚至几个小时就能复刻,种种舆论缠身。
但我觉得,
如果说DeepSeek的发布,让更多的人了解到了AI,知道了AI的能力。
那么Manus的发布,我觉得最大的贡献是可以让更多的人对于Agent,智能体的概念有一个明显的感知,再一次拓宽了公众所知的AI能力认知边界。
对于大多数人而言,可以把Manus当成一个真正的实习生来使用。
但同时,我们也不应过度“神化”或“污名化”它。
Manus的发布必将催生出新一代AI Agent的应用生态,
各大厂商也会加快脚步追赶这一趋势。
可能也是Manus可能面临的困境,通用Agent几乎就是大厂前进的必经路线。
Manus尽量减少人工对模型的控制,只需要做好铺垫,
让AI自己发挥,内化相关能力。
这也是业内大家讨论比较多的一个非共识,
比如 Flood Sung 就在 Kimi 发布 k1.5 时表态,
“现在的各种 Agentic Workflow 就是各种带 Structure 的东西,它一定会限制模型能力,没有长期价值,早晚会被模型本身能力取代掉。“
Manus 就是这样的设计,没有任何搭建的 workflow,所有的能力都是模型自然演化出来的,而不是用 workflow 去教会的。
初创团队的决策性就是很容易达成一致,这是相比大厂最大的一个优势。
随着Manus等Agent技术的发展,我们的工作方式肯定会发生一些改变:
职责重新划分:重复性、机械性的信息处理任务将大量交给AI Agent,人类则专注于创意、决策和人际互动。
管理AI的技能:未来的核心竞争力之一将是如何有效地管理和指导AI Agent,就像管理一个团队一样。
并行处理能力:通过同时部署多个Agent处理不同任务,工作效率将大幅提升。
正如Manus团队所提出的新指标"Agentic Hours per User (AHPU)"所揭示的那样,
未来的生产力将取决于用户能够有效委托给AI的任务时间。
人与动物最大的区别在于人类会使用工具,
而现在,我们也赋予了AI使用工具的能力,
如今,Manus的出现,让我们站在了一个新的十字路口 ——
当AI不再只是静态的工具,而是能够“思考”并“行动”的助手时,我们与技术的关系究竟会走向何方?
像一个孩子学会了走路,我们的数字伙伴正在学习如何自主行动。
它们不完美,偶尔会摔倒,但每一次尝试都在重新定义人机协作的边界。
Agent的意义或许不在于它能替我们做什么,而在于它让我们能更专注于做什么?
也许,真正的价值不在技术本身,而在于它为人类创造的空间 ——
去思考、去创造、去感受、去与他人建立更深层次的连接。
技术不只是达到目的的手段,它更是一种“揭示”的方式,揭示世界的同时也揭示了我们自己。
Manus团队在创造“能做事”的AI的同时,把Agent形态向前推了一小步。
希望对于初创团队多一些包容,
希望世界少一些恶意,
多一些美好
注:文中所有测试链接及体验均基于Manus标准模式,未使用高投入模式。部分测试链接因隐私原因未予公开。
53AI,企业落地大模型首选服务商
产品:场景落地咨询+大模型应用平台+行业解决方案
承诺:免费场景POC验证,效果验证后签署服务协议。零风险落地应用大模型,已交付160+中大型企业
2024-08-13
2024-06-13
2024-09-23
2024-08-21
2024-05-28
2024-07-31
2024-08-04
2024-04-26
2024-07-09
2024-09-17
2025-03-08
2025-03-08
2025-03-07
2025-03-07
2025-03-05
2025-03-05
2025-03-05
2025-03-04