微信扫码
添加专属顾问
我要投稿
探索Manus AI Agent的深度解析,揭开其产品和技术原理的神秘面纱。核心内容:1. 从应用视角解读Manus AI,包括其定义、功能及与ChatGPT等产品的区别2. 技术实现视角,分析Manus AI的设计思路、技术架构和规划任务拆解3. 探讨Manus AI的未来趋势,及其在Agent领域的竞争壁垒和发展前景
简单一点讲,Manus AI本质上是一个具备“多智能体”能力的应用产品,是一个拥有更多的技能,并且能够自动规划并一次性组合多种技能,解决一个复杂的应用场景问题,相比之前以ChatGPT为主的产品,Manus Ai可以更具体的解决很多通用场景的问题,并且输出结果的满足度更接近用户想要的结果,例如根据其官网的示例,它可以执行“爬取特斯拉股票数据,生成一篇带图表的分析报告,并创建一个数据面板,将其部署成一个可以查看的网站”等这样需要完成爬虫收集数据、图表可视化、创建分析报告、编写代码、部署网站等多个复杂任务的指令,接下来我们详细介绍Manus AI的每一个核心信息:
总结起来,从应用层的角度上看,manus是一个技能超群,能更灵活的解决用户更复杂的应用场景问题的应用工具,未来很多需要存在复杂工作流的任务,通过Manus这种类型的产品,可能能够得到很好的满足;
这两天有很多营销媒体有点过分的吹捧Manus,这其实并不太客观,很多人甚至都还没有真实的体验过这个产品,也还没搞清楚它就开始吹捧。
但不得不说的是,单纯从当前AI应用的角度上看,Manus定义的应用实现方式和实现效果确实是惊艳的,这个评价并不是个人说的,而是来自业界权威的GAIA测试的结果,GAIA它是由数个来自Meta、HuggingFace和AutoGPT的专家们共同完成,模拟了真实世界的复杂问题,要求AI展现推理、多模态处理、网页浏览和工具使用等多维能力;之前GPT-4+工具调用在这个测试中仅获得了15%的成绩。而Mannus AI在GAIA测试中超越了之前的各种Agent以及OpenAI的DeepResearch,这非常了不得,但是我们只能说,当下它相比其他应用还是很了不起的,至于实际能不能真正一步到位的解决用户的问题,达到非常炸裂的效果,这个我觉得不一定,还是要看到实际的产品,真正放到应用场景里面才好评价。
3.Manus AI和ChatGPT等产品的区别?
Manus AI和ChatGPT都属于AI应用,那么两者有什么区别,Manus为啥能够让科技圈觉得它与众不同,个人的理解,两者的差别主要包括如下:
1.从产品形态和能力边界上看,ChatGPT本质上是一个以大模型为主的生成式AI应用,它目前只能解决一些跟内容生成有关的问题,解决不了跟生成无关的问题,包括自动化任务,或者跨平台执行任务,比如部署网站、帮你订餐等,这些跟生成式AI无关;
而Manus AI更像是一个自主规划并执行任务的机器人,生成式AI只是它的一部分能力,除此之外,它还能能自主执行自动化任务,或者跨端执行任务;而现实的应用场景中,用户并不是只有AI生成的需求,还有自动化任务相关的需求,这是很多用户认可它的原因,相当于它能帮用户解决的问题更多了;
2.从用户体验的角度上看,ChatGPT在执行任务的时候,更多的需要用户写清楚提示词,提供清晰的指示,在用户的引导之下才能完成任务;而Manus可以支持用户简单的输入一个指令,Manus自动理解用户需求并拆解任务,并自动完成任务;
另外一个角度,在解决一些具体任务问题的时候,ChatGPT很多时候只是提供建议和操作指引,但是并不会帮助你完成任务;比如当你问ChatGPT怎么部署网站的时候,它可以很清晰的告诉你一系列过程,但是还是需要用户自己动手做;而Manus不同,它可以自己动脑规划的同时,还直接动手帮你把之情给做了,这完全呼应了“Manus”的中文翻译是“手脑并用”这个点;因此ChatGPT更像是一个只指挥不干活的老板,而Manus是一个动脑子还做事情的优秀员工,这是用户更加喜欢Manus这种应用形态的原因;
3.从技能水平上,ChatGPT除了大模型服务之外,还支持联网搜索等技能,但是整体的技能和工具是比较少的,目前更多的是官方引进了一些跟生成相关的技能,但是Manus却又大量的内置技能,包括搜索引擎、浏览器、本地文件处理、代码编程等,还具备调用多种数据API以及跨端操作等技能,所以技能更多;
4.从技术实现方式上,ChatGPT主要依托大模型技术,而Manus技术底座采用了多代理虚拟机架构,融合规划代理(任务拆解)、执行代理(工具调用)、验证代理(结果校验)等多层代理,形成一个同时具备“模型调度+工具链整合+环境交互(例如跨端交互)”三重能力的应用。
事实上,openai推出的产品中,跟Manus直接对标的可能不是ChatGPT,而应该是其推出的Operator这款产品,但是为啥operator推出的时候,并没有引起相应的轰动,最主要的还是因为其限制只有200美元/月的PRO用户才可使用,或许在能力上Operator并不比manus差,但是因为只有极少数用户才能用上,因此不具备市场效应。
在大致的理解了Manus应用相关的问题之后,我们来分析理解一下Manus AI在具体应用的过程中,它是怎么运作的,我们以其官网示例的:“特斯拉股票分析和投资见解”这个应用场景为例,分析它是怎么逐步完成这个应用场景的实现的,整个实现的效果是,用户仅输入一个需求指令,manus最终输出了一份关于特斯拉的股票分析,同时将数据固定成为一个数据看板,并开发部署为一个可以打开的网站;整个从输入到输出的过程的原理,通过一个脑图梳理概括如下:
具体每个步骤的明细如下:
1.用户输入需求指令,要求对特斯拉股票做一个全面的分析,并提供了需求细节;
2.连接数据源,获取分析需要的数据:获得需求指令后,manus第一件事情是先通过调用金融数据的API获取特斯拉相关的企业信息,财务数据等数据,这个过程中,Manus调用了获取数据的API;
3.规划和任务拆解:接着,manus基于用户的需求,开始制定规划并将该需求拆解成多个任务,任务中包括收集公司概况、财务分析、分析市场情绪、技术分析、竞争对手分析、内在价值分析、制定投资理论、撰写报告等多个任务;
4.任务工作流梳理和执行:然后,开始逐步执行各个任务,在执行该任务的时候,manus先梳理完成该任务的工作流,然后依次执行,我们以收集财务数据这个任务为例,整个流程包括撰写python爬虫代码,运行爬虫并获取财务数据,调用数据可视化组件将数据整理成可视化图表;整个过程背后的技术过程,Manus先是调用了大模型的能力完成python文件的撰写,并自动运行爬虫程序爬取数据,且调用数据可视化图表的API完成图表的转换;
5.最终输出一份分析报告:第一项任务的终点,最后调用大模型的生成能力输出的是一个股票分析报告,客观的讲,个人觉得案例中输出的分析报告肯定还达不到非常专业的水平,但是从完成度而言,已经是比较不错了,一方面基本满足用户的需求,并且报告中有数据、有洞察,只是要说达到ChatGPT DeepResearch的水准那没有。
6.制作仪表板:接下来用户再次发送一个制作仪表板的指令,Manus继续完成前面从规划、任务拆解、任务执行的过程,完成一个交互式仪表板的创作;
7.将仪表板发布为网站:最后一步,用户发送指令,将该仪表板部署到一个公共的URL上,该过程中Manus完成应用程序的编程,并自动将程序部署到公网,支持用户访问,当用户直接打开这个网页,看到这个网站的时候,确实让人觉得非常爽,只是一个指令,真的最后开发了一个网页并且部署为可以直接访问的应用,这点是目前ChatGPT等产品无法做到的;
从前面大家也可以看到,manus的核心能力个人概括起来主要就两点:任务规划和拆解、调用工具;
因此其应用场景,核心围绕着这两个能力,比如基于其任务规划和拆解的能力,未来那些工作流比较漫长并且复杂的应用场景,可能可以被很好的解决;
同时基于其调用工具的能力,未来那些需要跨端、跨系统操作,或者需要组合多动API工具的应用场景,可能通过Manus更好的解决,不过鉴于目前Manus可以调用的工具库主要以浏览器操作、文件操作、编程等为主,API主要以数据获取等为主,未来在应用场景上,也将围绕着其可以调用的技能范围来,概括起来个人觉得,以下这些应用场景可能在Manus中会被更好的满足;
6.Manus AI的能力边界和局限性
概括起来,Manus可能更加适合解决满足一下条件的应用场景的问题,对于任务流程个性化、缺乏公开工具和API、专业性较强的应用场景,Manus依然无法很好的满足。
作为一个AI应用的产品经理,在了解完Manus的实现逻辑和技术原理之后,我们能明显的感觉到Manus带来了另外一种Agent实现的方式,那么相比之前的AI Agent搭建的方式,manus搭建AI的方式有什么特别之处,这部分主要阐述这个问题。
不管新旧的方式如何,一个Agent的搭建,都必须通过大模型、规划、工具(包括知识库、API、computer use等)这几部分才能搭建出一个完整的Agent,Manus相比之前的AI Agent搭建的方式,有如下几点不同:
在前面特斯拉的案例中,我们也能够看到,Manus在具体解决某一个问题的时候,是先规划和拆解任务,然后再分别执行各个子任务的工作,最后输出结果;
仔细理解,Manus AI 的底层使用了多代理虚拟机的架构,架构中包括规划代理、执行代理、验证代理三层代理,每个代理都具备动态调用工具库和API的能力,三个代理协同起来,完成任务的处理,整个工作流程概括起来如下:
1.用户输入具体指令需求;
2.规划代理完成任务规划和拆解;
3.通过执行代理完成具体指定任务的执行;
4.通过验证代理验证操作结果并输出结果;
Mannus的核心能力之一是自主规划和任务拆解,大家可能会觉得奇怪,大模型明明也具备规划和拆解的能力,为啥不直接使用大模型,Manus为啥还要采用多代理虚拟机这样一个特殊的架构来实现这个事情其中。
其中最主要的原因在于大模型的规划能力和任务拆解往往只是基于“文本生成逻辑”,规划结果也只是停留在文本层面,而非基于实际可行的操作,比如当用户要求“生成特斯拉股票分析报告”时,大模型可能输出步骤建议(如“先获取数据,再分析趋势”),但缺乏具体工具调用路径,如调用雅虎金融API、Python脚本编写、Matplotlib可视化等,因此规划不到具体可落地的层面;
另外对于一些复杂的任务,通常需根据中间结果动态调整策略,Manus的规划代理需要能实时监控执行代理的进度,并根据异常(如API调用失败)重新规划子任务,而单一模型难以实现这种闭环反馈,这就是大模型规划能力和Manus背后的规划能力的区别。
前面我们已经知道了Manus具备自动调用工具和API的能力,其中这些工具可能来自如下3个来源:
1.内置工具库:包括浏览器、文件处理器、代码编辑器、图表生成工具等等,这些可能都是一些公开的工具组件,官方整合后放到工具库,并基于Claude在2024年6月20日发布的Artifacts,让Manus能够在对话中动态创建和修改这些工具,从而完成从代码到图表,从文档到交互式组件等直观内容的呈现;
从这里可以看到,其实Manus并没有创造太多的技术方案,只是将这些大公司公开的技术方案利用到极致,用于形成自己的AI应用,他可能算不上是AI技术的引领者和贡献者,但是至少一定是利用开源技术做产品工程最极致的企业。
个人的观点,Manus AI的这种产品形态,并不一定代表未来Agent的发展趋势,应用的本质是解决用户的应用场景问题,至于产品形态个人认为不重要。
ChatGPT等这些类型的AI应用,也并不是不能实现Manus AI的功能,前面我们理解到,Manus相比ChatGPT等应用主要是多了任务规划和拆解、工具调用(工具库、API、computer use)的能力,如果ChatGPT也同步支持这些能力,其照样也可以实现manus一样的效果,其中核心的多代理虚拟机架构、工具库、基于MCP协议的API、computer use等都并不适合Manus的公司原创,其他应用复现和支持的代价并不高,也就是说ChatGPT等类型的应用也能以其产品形态实现相同的应用效果。
鉴于Manus的很多产品能力其实都是基于开源框架和技术造就的复杂产品工程,所以个人认为,并没有太大的核心竞争壁垒,优势仅仅是因为率先推出,可以抢先获取用户,而像扣子、腾讯元器等类型的Agent搭建工具,也完全有条件可以实现和Manus同样的能力,比如扣子只需要增加任务拆解和规划的能力,以及快速接入支持MCP协议的API,改变其当下通过Function call的方式对接API的方式,可能达到类似的效果,并且多智能体这种实现方式,在很早的时候,已经被应用于扣子的agent搭建流程中,只是目前多智能体需要人工取连接,不是通过模型自动串联,但是这个事情要实现不是很难的事情,对于字节来说。
结尾
OK,以上即为三白对Manus AI Agent建立的快速理解,从一开始不明所以,完全不知道这个东西到底是什么,到逐渐理解其实现方式,并对比之前的Agent产品,慢慢的理解这个产品,无论其产品能力如何,Manus的这种实现,也算的上是应用层的创新,他的实现方式,给AI应用的创业者们提供了一种做应用产品的思路,或许应用中的很过规划细节可以交给模型和规划代理处理,MCP之下的API接入的方式,或许可以改变目前AI应用接入API繁琐且困难的局面。
该部分在公众号的内容更新的内容暂时到此,更多深度的分析,我会持续更新到我的知识星球AI&商业增长研究,欢迎大家订阅!
同时也欢迎大家体验和使用我的研究学习助手AI快研侠,用它快速研究和学习一个行业、产品和支持,让你的知识获取效率更快。
53AI,企业落地大模型首选服务商
产品:场景落地咨询+大模型应用平台+行业解决方案
承诺:免费场景POC验证,效果验证后签署服务协议。零风险落地应用大模型,已交付160+中大型企业
2024-08-13
2024-06-13
2024-09-23
2024-08-21
2024-05-28
2024-07-31
2024-08-04
2024-04-26
2024-07-09
2024-09-17
2025-03-08
2025-03-08
2025-03-07
2025-03-07
2025-03-05
2025-03-05
2025-03-05
2025-03-04