AI知识库

53AI知识库

学习大模型的前沿技术与行业应用场景


Manus 吹散了人与 Agent 之间的迷雾|直播测试 8 小时,我对 Manus 真实实测感想

发布日期:2025-03-08 04:28:54 浏览次数: 1632 来源:一泽Eze
推荐语

Manus AI技术深度体验,揭开人机交互新篇章。

核心内容:
1. Manus工程、产品化的真实体验与评价
2. Manus AI的功能和限制,以及交互逻辑
3. Manus技术背后的智力担当和未来展望

杨芳贤
53A创始人/腾讯云(TVP)最具价值专家

想了想,应该有不少读者想看我对 Manus 的评价,还是不偷懒,分享直播实测 8 小时的真实感受。 

 

先给总体评价(非常希望你们能看到最后的小结) 

整体感受下来,Manus 工程、产品化做得都很棒,易上手、价值感知明确。 

所以文章开头必须给 Manus 团队点赞,同时做到“想到”、“做出来”、“做到让人愿意好好用用的程度”,这真的很不容易。 

 

本文不聊太深入的技术原理,就想给用过 or 没用过的读者,通俗易懂地讲讲 Manus 能做什么,缺点什么,意味着什么 

Image

先讲下 Manus 是个啥

Image
  • 当前的 Manus ≈ AI 操纵着一个没有图形界面的 Linux 虚拟机 & 浏览器,感知电脑环境,执行各类操作
    • 所以它能跑各种 linux 下的指令、库、程序( cd、ls 指令、python……),也能访问各种网页、获取一些 API 接口的数据
    • 但因为没有图形界面,所以没法运行图形程序。比如我让它跑《宝可梦》,在运行时就终止了
    • 访问网页时,阻挠人类使用的各种要素,一样会打扰到 Manus。比如:强制要求登录、余额不足的充值弹窗
    • Manus 没有网页账号,也没有钱。所以为了方便用户通过键鼠介入,Manus 提供了用户可视的命令行视窗、浏览器、vscode 两种选项,方便查看运行指令、接管网页和修改文件。这也反向说明了 Manus 现在的活动边界。
    • 至于 Manus AI 能够很顺畅地和网页交互、读数据、点元素、打游戏,甚至还能从无图形界面随时切换到用户可接管的图形界面。这可能就是 Peak、Red 他们的传统艺能了,一个浏览器大佬,一个浏览器插件大佬,做浏览器相关工程化开发是手掐把拿的。
  • 对了,你还是可以给 Manus 上传文件,想必未来也能对接私有 API,有想象空间

 


Okay,再回过来讲它的运作逻辑

Image
  • Manus 的主要智力担当是 Claude AI 和某个特训过的推理模型。它面临一个人类指令时,会对指令按“根据人类指令,拆分完成任务所需的子步骤”的思路,生成 todolist 文档,拆解任务,降低实现难度
  • 基于这个 todolist,每完成一个子任务就打个 ✅,为 AI 指明多步骤任务中每一步的执行要求(因为当前 AI 的上下文记忆长度有限,也需要做备忘录)
  • 再针对 list 中的每个 todo,按需调用相关工具( linux 命令、python、浏览器等),一一推进子步骤进行,评估完成质量。这些步骤可以是安装软件环境、创建文档、浏览网页、编写程序&网页等
  • 多个子步骤的生成结果,嵌套利用起来,它就可以做出原始指令的产出物。比如:网页搜索、网页阅读总结而成的调研数据文档 + 网页样式 + …… = 生成了 xx 市场调研分析报告网页
  • 当然,Manus 不局限于做网页,做报告;还能玩 html 的 2048 游戏、写游戏攻略心得、帮我安装宝可梦游戏、安装 NDS 模拟器、代替我登录可灵 AI 输入 prompt 做 AIGC 视频。>>> 此处需要发挥想象力
  • 所以它确实是个通用 Agent

 


Case 效果怎么样?

  1. 1. 它真的创作视频了,用 opencv 一帧帧画的,但有点丑,也不能自己配上音。但毕竟做出视频了(也有其他朋友有测出配上 BGM 的)
  2. 2. 能帮我草拟邮件,但是还不支持使用邮件服务代发邮件,可能官方有限制
  3. 3. 真的玩起来了,超出预期!最高分 192 分,比起人类是差很多(理论上存在 10w 分以上的可能),每一步也很慢,但终究是模拟键鼠输入玩起来了。看来 Manus 能玩一切非即时性游戏。由于单个 case 的上下文长度现在有限制,我正在向官方申请解除限制,看看无限制情况下,Manus 到底能玩到多少分
  4. 4. 这个 case 很神奇,我也没看懂它到底做到了什么程度,希望大家都来尝试分析一下
    Image
    1. 看起来它似乎通过主动改造自己的环境,找到了让本不能运行的游戏运行的方案?说实话,这里我已经有点看不懂它做到什么程度了,到底是真做了,还是一场幻觉?
    1. 它自己调研了运行游戏的要求,安装了模拟器与其依赖
    2. 但游戏镜像资源确实不好找,网盘下载也需要登录人类账号、下载网盘客户端。所以我给它开小灶,直接把包传给它了。
    3. 然后自行安装的很顺利。要知道模拟器配置啥的其实真的没那么方便。这意味着,以后用不着我们远程费劲教长辈如何用软件,Agent 将是我们每个人最好的伙伴
    4. 在运行游戏时,Manus 的沙箱不支持图形服务,于是我适度“鼓励”了一下,它竟然开始尝试自行改进无头环境下的虚拟显示替代方案。
  5. 5. 自主设计了整个 AI 视频的脚本、文生图提示词。 我接管登录了可灵 AI,也能成功调整管理台参数尝试生成。但是因为账号没钱,弹出了收费弹窗,不想充值就无法继续了。
  6. 6. 大部分都被产品工程限制了,但最终输出了一些在官方网站上查不到的方案设计内容,且经官方证实,确实大部分正确。Manus 真的能对环境进行感知,反思环境对它的影响,简直是 AI Agent 版本的《楚门的世界》

 


所以我对 Manus 的评价是什么?

你可以把它当做一个非常肯干活的实习生?

但你最好自己试试再下判断。因为每个人在不同的任务场景,预期都不一样。 

实际上有好多我不熟悉的任务中,它做的比我快多了,也好多了。 

Image
  • 前面提过,它是用 LLM 大模型拆解原始任务为多个子任务,再针对一个个子任务,逐步生成行动步骤/内容/方案……
    • 所以,它的每个子任务能力,就是当下 LLM 的智力水平——缺乏实战经验的、缺点灵性(长期的自我改进与成长空间)、但能 24 小时极高吞吐量、极速干活的在校大学实习生
    • 拼起来的最终产物的水平,也基本在这样的实习生水平(具体看作为 Agent 内核的 AI 水平,和它可接触的数据质量)
    • PS:直播里,我也请了一个专业的金融分析师朋友,让他点评官网公布的特斯拉股票分析 case 中的分析报告的水平。得到的评价是:“花里胡哨的仪表板我们是不看的。实际分析得到的报告水平大概是在读大一实习生的水平,在实战中不可用。可能给到私有数仓 API 和我们实战在用的分析报告模板与要求,能给出更有实际价值的成果。”
    • 不过还是再次建议,这部分主观因素过于强烈,建议务必公测后亲自体验!!!
  • 不是说 Manus 不行,解决不了难题。而是意味着这类产品的能力表现会与底模 AI 息息相关,共同进步( “套壳”产品反而能拥有无限成长空间 ?)
  • 而且官方说,每个 case 的 token 花费基本在 2 美金,随着模型发展,这个价格还会无限下探。这也比人类实习生的成本低太多了,未来的组织架构必然会与现在有巨大的差别。

 


但 Manus 有些问题,或者说这个阶段的 AI Agent 都会有的问题

  • 在人机协作过程中,人和 AI 反复拉扯修改任务过程中的中间产物,是非常不好的体验。一旦不能一梭流梭出好结果,容易陷入无限的反复提示修改的困境
  • 就和让实习生工作一样:如果实习生做不好事情,就容易反反复复改,而且基本很难靠他自己的“瞎猜”改好。你必须更加耐心地给予更多的背景信息、子步骤思路指导、增加有信息量的反馈
  • 由于 Manus 毕竟不是我们的随身助理,且尚不支持跨任务项目的对话记忆、账号登录态、文件互通,以及文字语言是对现实信息的有损压缩,所以它很难掌握你想让它做的事情的完整背景信息,很多东西需要你老老实实地交代清楚,没法读心,也没法读你因为它没干好事情而紧张起来的空气
  • 当下的 Manus 确实在一些能明确定义过程/低交付预期的任务中,大幅度帮你节省力气。但在更多场景里,可能还因为数据质量、背景信息有限、无法持续成长等原因,没法承担更多期待。

 

所以我也在问自己一个问题:现阶段的 manus,我能找到长期用它的主力场景吗? 

我现在暂时没想出答案,我直觉是我自己的问题,我们都应该再多试试,思考自己与 AI 的最佳人机协作模式 

 


Manus 的发布,让更多人重新看清了未来

虽然很多人说 Manus 用的这些技术并无壁垒,甚至有些部分都是半年前被验证的项目。 

但这不阻碍 Manus 是目前唯一一个把 AI、工程化、产品化结合的如此棒的产品。 

一个产品,同时做到“想到”、“做出来”、“做到让人愿意好好用用的程度”,这真的很不容易。 

它打通了几乎全部的链路,以极低的体验成本(国内可用、免费试用,有邀请码限制,但正在每天数千人的速度逐步放开),让人类能够一站式地托管完成复杂的任务。 

 

未来胜出的可能并不是拥有最强技术的公司,而是那些真正理解了AI与人类如何共进化、并能建立持续、稳定的协作机制的公司。(出自:https://yage.ai/manus.html

 

在 Manus 眼见为实的体感刺激下,广大从业者、一般用户,都进一步开始思考:我们的产品在 AI 时代,到底应该是什么样的?未来的人机协作是怎么样的?人应该与 AI 如何协作共处? 

 


总结

行文至此,作为行业首个爆火的通用 Agent(且尚在 alpha 内测阶段),Manus 与其团队已经承担了极大的关注度与舆论压力。 

 

在思考本文标题的时候,我其实犹豫了很久,要不要拔高到如此程度。 

虽然没有任何利益关系,最终还是选择了你们现在看到的版本。 

因为他们值得: 

 

——Manus 以极高的产品完成度,再次把隔在人和 agent 的未来的迷雾吹散了一些,透出了更多光亮。 


53AI,企业落地大模型首选服务商

产品:场景落地咨询+大模型应用平台+行业解决方案

承诺:免费场景POC验证,效果验证后签署服务协议。零风险落地应用大模型,已交付160+中大型企业

联系我们

售前咨询
186 6662 7370
预约演示
185 8882 0121

微信扫码

添加专属顾问

回到顶部

加载中...

扫码咨询