我要投稿

深度理解Manus AI Agent

发布日期：2025-03-09 10:55:35 浏览次数： 1641 来源：三白有话说

Hello大家好，三白又来交付万字长文分享了，消失了一个多月没有输出的主要原因是因为整个2月都在试图深入的学习和理解DeepSeek,然而DeepSeek的内容刚消化完还没来得及整理成文章，结果这周又来个Manus AI。

不得不说，最近一段时间AI圈的发展实在是太快，我们的学习速度实在是有些跟不上，因为这两天身边的技术圈和AI圈的高手们都在讨论Manus，让我觉得自己有必要深入的理解一下Manus的产品和技术原理，所以今天优先快速输入关于Manus的分享，后续会把我过去一个月关于Deepseek的学习成果也分享大家。

为了快速的搞清楚它到底是什么，我花了一天的时间阅读了大量的文献并从产品经理的视角做一次系统的梳理和总结，相比Deepseek，Manus还是相对更容易理解，加上有我的研究助手AI快研侠的支持，今天很快就把这篇文章输出出来了，全文近8000+字，我将从应用视角、技术实现、以及对于Agent探索等角度，深度理解这个产品，全文的目录快速概览如下：

一.从应用视角理解Manus AI

1.Manus AI是什么？

2.Manus AI究竟有没有那么神？

3.Manus AI和ChatGPT等产品的区别？

4.Manus AI执行任务的过程？

5.Manus未来更适合能解决哪些应用场景的问题？

6.Manus AI的能力边界和局限性

二.从技术实现的视角理解Manus AI

1.从产品实现的角度看，Manus和以往AI Agent设计的思路有什么区别？

2.Manus AI背后的技术架构和原理

3.Manus的规划任务拆解和大模型的规划能力有什么区别？

4.Manus是如何解决工具的获取和调用的问题？

5. Manus调用工具的方式：云端异步执行与沙盒环境

三.透过Manus AI看Agent未来的发展趋势

1.Manus的产品形态，是否代表未来Agent的趋势？

2.Manus是否具备竞争壁垒，和扣子等Agent开发平台的区别

一.从应用视角理解Manus AI

1.Manus AI是什么？

简单一点讲，Manus AI本质上是一个具备“多智能体”能力的应用产品，是一个拥有更多的技能，并且能够自动规划并一次性组合多种技能，解决一个复杂的应用场景问题，相比之前以ChatGPT为主的产品，Manus Ai可以更具体的解决很多通用场景的问题，并且输出结果的满足度更接近用户想要的结果，例如根据其官网的示例，它可以执行“爬取特斯拉股票数据，生成一篇带图表的分析报告，并创建一个数据面板，将其部署成一个可以查看的网站”等这样需要完成爬虫收集数据、图表可视化、创建分析报告、编写代码、部署网站等多个复杂任务的指令，接下来我们详细介绍Manus AI的每一个核心信息：

ManusAI是一个应用，不是大模型：首先它只是个AI应用产品，不是一个大模型，跟DeepSeek完全不是一会事，只能算一个做的很不错的超级产品工程，所以不要和大模型混淆，更不要提“下一个DeepSeek”这种外行的观点，它跟DeepSeek的影响力完全不是一个水平，鉴于当下很多人错误的观点，这里有必要纠正一下部分人的误解；
具备自动规划和任务拆解的能力：Manus 可以基于用户输入的指令，理解用户的意图之后，自动建立规划，并拆解任务；比如用户输入“帮我生成一篇特斯拉的报告“的时候，Manus将该指令拆解为”创建Python文件-爬取数据-生成图表-创作分析报告-编写HTML代码-部署网站“这个过程，这里的规划能力，和大模型的规划能力还稍微有些不同，后面我们会详细讲解；
具备更多的技能，可以完成更多复杂的任务：以上面的特斯拉的案例为例，完成整个过程所有的任务，需要具备编写爬虫代码、对接金融数据API、对接数据可视化API、生成分析报告、代码编程、对接网站部署API等一些类的能力，Manus相当于提前具备了这么多技能，当需要使用这些技能的时候，自动调用技能解决问题，”技能库“是Manus AI非常重要的一个能力，同样我们后面会详细讲解；
可以解决更多通用性的应用场景问题：通过Manus 用户可以更加大胆的提出更多的应用场景问题，比如特斯拉这个例子，以往面对ChatGPT等产品，我们还不能提出让它自己写代码，并且把网站也部署了，可以支持用户直接打开网页这种事情，因为它不支持直接部署网站的能力，而manus却做到了，这是它让大家惊艳和赞叹的原因之一。

总结起来，从应用层的角度上看，manus是一个技能超群，能更灵活的解决用户更复杂的应用场景问题的应用工具，未来很多需要存在复杂工作流的任务，通过Manus这种类型的产品，可能能够得到很好的满足；

2.Manus AI究竟有没有那么神？

这两天有很多营销媒体有点过分的吹捧Manus，这其实并不太客观，很多人甚至都还没有真实的体验过这个产品，也还没搞清楚它就开始吹捧。

但不得不说的是，单纯从当前AI应用的角度上看，Manus定义的应用实现方式和实现效果确实是惊艳的，这个评价并不是个人说的，而是来自业界权威的GAIA测试的结果，GAIA它是由数个来自Meta、HuggingFace和AutoGPT的专家们共同完成，模拟了真实世界的复杂问题，要求AI展现推理、多模态处理、网页浏览和工具使用等多维能力；之前GPT-4+工具调用在这个测试中仅获得了15%的成绩。而Mannus AI在GAIA测试中超越了之前的各种Agent以及OpenAI的DeepResearch，这非常了不得，但是我们只能说，当下它相比其他应用还是很了不起的，至于实际能不能真正一步到位的解决用户的问题，达到非常炸裂的效果，这个我觉得不一定，还是要看到实际的产品，真正放到应用场景里面才好评价。

3.Manus AI和ChatGPT等产品的区别？

Manus AI和ChatGPT都属于AI应用，那么两者有什么区别，Manus为啥能够让科技圈觉得它与众不同，个人的理解，两者的差别主要包括如下：

1.从产品形态和能力边界上看，ChatGPT本质上是一个以大模型为主的生成式AI应用，它目前只能解决一些跟内容生成有关的问题，解决不了跟生成无关的问题，包括自动化任务，或者跨平台执行任务，比如部署网站、帮你订餐等，这些跟生成式AI无关；

而Manus AI更像是一个自主规划并执行任务的机器人，生成式AI只是它的一部分能力，除此之外，它还能能自主执行自动化任务，或者跨端执行任务；而现实的应用场景中，用户并不是只有AI生成的需求，还有自动化任务相关的需求，这是很多用户认可它的原因，相当于它能帮用户解决的问题更多了；

2.从用户体验的角度上看，ChatGPT在执行任务的时候，更多的需要用户写清楚提示词，提供清晰的指示，在用户的引导之下才能完成任务；而Manus可以支持用户简单的输入一个指令，Manus自动理解用户需求并拆解任务，并自动完成任务；

另外一个角度，在解决一些具体任务问题的时候，ChatGPT很多时候只是提供建议和操作指引，但是并不会帮助你完成任务；比如当你问ChatGPT怎么部署网站的时候，它可以很清晰的告诉你一系列过程，但是还是需要用户自己动手做；而Manus不同，它可以自己动脑规划的同时，还直接动手帮你把之情给做了，这完全呼应了“Manus”的中文翻译是“手脑并用”这个点；因此ChatGPT更像是一个只指挥不干活的老板，而Manus是一个动脑子还做事情的优秀员工，这是用户更加喜欢Manus这种应用形态的原因；

3.从技能水平上，ChatGPT除了大模型服务之外，还支持联网搜索等技能，但是整体的技能和工具是比较少的，目前更多的是官方引进了一些跟生成相关的技能，但是Manus却又大量的内置技能，包括搜索引擎、浏览器、本地文件处理、代码编程等，还具备调用多种数据API以及跨端操作等技能，所以技能更多；

4.从技术实现方式上，ChatGPT主要依托大模型技术，而Manus技术底座采用了多代理虚拟机架构，融合规划代理（任务拆解）、执行代理（工具调用）、验证代理（结果校验）等多层代理，形成一个同时具备“模型调度+工具链整合+环境交互（例如跨端交互）”三重能力的应用。

事实上，openai推出的产品中，跟Manus直接对标的可能不是ChatGPT，而应该是其推出的Operator这款产品，但是为啥operator推出的时候，并没有引起相应的轰动，最主要的还是因为其限制只有200美元/月的PRO用户才可使用，或许在能力上Operator并不比manus差，但是因为只有极少数用户才能用上，因此不具备市场效应。

4.Manus AI执行任务的过程

在大致的理解了Manus应用相关的问题之后，我们来分析理解一下Manus AI在具体应用的过程中，它是怎么运作的，我们以其官网示例的：“特斯拉股票分析和投资见解”这个应用场景为例，分析它是怎么逐步完成这个应用场景的实现的，整个实现的效果是，用户仅输入一个需求指令，manus最终输出了一份关于特斯拉的股票分析，同时将数据固定成为一个数据看板，并开发部署为一个可以打开的网站；整个从输入到输出的过程的原理，通过一个脑图梳理概括如下：

具体每个步骤的明细如下：

1.用户输入需求指令，要求对特斯拉股票做一个全面的分析，并提供了需求细节；

2.连接数据源，获取分析需要的数据：获得需求指令后，manus第一件事情是先通过调用金融数据的API获取特斯拉相关的企业信息，财务数据等数据，这个过程中，Manus调用了获取数据的API；

3.规划和任务拆解：接着，manus基于用户的需求，开始制定规划并将该需求拆解成多个任务，任务中包括收集公司概况、财务分析、分析市场情绪、技术分析、竞争对手分析、内在价值分析、制定投资理论、撰写报告等多个任务；

4.任务工作流梳理和执行：然后，开始逐步执行各个任务，在执行该任务的时候，manus先梳理完成该任务的工作流，然后依次执行，我们以收集财务数据这个任务为例，整个流程包括撰写python爬虫代码，运行爬虫并获取财务数据，调用数据可视化组件将数据整理成可视化图表；整个过程背后的技术过程，Manus先是调用了大模型的能力完成python文件的撰写，并自动运行爬虫程序爬取数据，且调用数据可视化图表的API完成图表的转换；

5.最终输出一份分析报告：第一项任务的终点，最后调用大模型的生成能力输出的是一个股票分析报告，客观的讲，个人觉得案例中输出的分析报告肯定还达不到非常专业的水平，但是从完成度而言，已经是比较不错了，一方面基本满足用户的需求，并且报告中有数据、有洞察，只是要说达到ChatGPT DeepResearch的水准那没有。

6.制作仪表板：接下来用户再次发送一个制作仪表板的指令，Manus继续完成前面从规划、任务拆解、任务执行的过程，完成一个交互式仪表板的创作；

7.将仪表板发布为网站：最后一步，用户发送指令，将该仪表板部署到一个公共的URL上，该过程中Manus完成应用程序的编程，并自动将程序部署到公网，支持用户访问，当用户直接打开这个网页，看到这个网站的时候，确实让人觉得非常爽，只是一个指令，真的最后开发了一个网页并且部署为可以直接访问的应用，这点是目前ChatGPT等产品无法做到的；

5.Manus未来更适合能解决哪些应用场景的问题？

从前面大家也可以看到，manus的核心能力个人概括起来主要就两点：任务规划和拆解、调用工具；

因此其应用场景，核心围绕着这两个能力，比如基于其任务规划和拆解的能力，未来那些工作流比较漫长并且复杂的应用场景，可能可以被很好的解决；

同时基于其调用工具的能力，未来那些需要跨端、跨系统操作，或者需要组合多动API工具的应用场景，可能通过Manus更好的解决，不过鉴于目前Manus可以调用的工具库主要以浏览器操作、文件操作、编程等为主，API主要以数据获取等为主，未来在应用场景上，也将围绕着其可以调用的技能范围来，概括起来个人觉得，以下这些应用场景可能在Manus中会被更好的满足；

6.Manus AI的能力边界和局限性

概括起来，Manus可能更加适合解决满足一下条件的应用场景的问题，对于任务流程个性化、缺乏公开工具和API、专业性较强的应用场景，Manus依然无法很好的满足。

任务和工作流可以被标准化或结构化拆解的应用场景：如果任务拆解非常个性化，流程也很难被标准化，比如创意发掘、用户需求洞察等，这些是很难被标准化设计和规划的；
该场景存在可以开放的API和工具，如果没有开放的工具和API可以使用，这种场景就无法被实现和满足，比如复杂的依赖私密信息的金融投研、企业战略决策等；另外目前Manus在跨端操作上还只支持浏览器的跨端操作，而对于电脑操作系统层级的软件的跨端操作，由于
专业性较强的场景：从前面的案例中，我们可以看到，即使Manus在自动化执行方面已经非常出色，但是目前它还是没有完全解决专业性的问题，比如它还并不一定知道一个专业的股票分析报告应该是什么样的，可能还是需要用户提供一些信息或者需要进一步的探索，自动规划和工具调用并不能解决这个问题，如何定义一个好的回答，以及专业的结果，其中的know-how依然是壁垒，没有被打破。

二.从技术实现的视角理解Manus AI

1.从产品实现的角度看，Manus和以往AI Agent设计的思路有什么区别？

作为一个AI应用的产品经理，在了解完Manus的实现逻辑和技术原理之后，我们能明显的感觉到Manus带来了另外一种Agent实现的方式，那么相比之前的AI Agent搭建的方式，manus搭建AI的方式有什么特别之处，这部分主要阐述这个问题。

不管新旧的方式如何，一个Agent的搭建，都必须通过大模型、规划、工具（包括知识库、API、computer use等）这几部分才能搭建出一个完整的Agent，Manus相比之前的AI Agent搭建的方式，有如下几点不同：

自动的任务规划和拆解：Manus能够自动的规划和拆解任务，不需要人工的接入，而以往我们开发一个Agent的时候，这部分的规划和拆解是产品经理人工拆解的，由人工来定义；
从工具库从调用工具：Manus具备一个内置的工具库，该工具库中包括浏览器、文件处理、代码编辑器等工具，并且支持调用多种API完成特定任务，还可通过computer use的方式跨端操作，因此它具备了更出色的工具调用能力，而以往AI Agent开发的时候，每一个环节里面的工具能力都需要对接具体的API或者使用具体的工具，工具接入的过程更加繁琐；
通用性：因为技能限制，以前的Agent的实现，每个agent只能解决特定的场景，很难解决通用场景的应用，而Manus在超多技能支持的情况下，可以成为一个通用的AI Agent，灵活的解决很多问题。

2.Manus AI背后的技术架构和原理

在前面特斯拉的案例中，我们也能够看到，Manus在具体解决某一个问题的时候，是先规划和拆解任务，然后再分别执行各个子任务的工作，最后输出结果；

仔细理解，Manus AI 的底层使用了多代理虚拟机的架构，架构中包括规划代理、执行代理、验证代理三层代理，每个代理都具备动态调用工具库和API的能力，三个代理协同起来，完成任务的处理，整个工作流程概括起来如下：

1.用户输入具体指令需求；

2.规划代理完成任务规划和拆解；

3.通过执行代理完成具体指定任务的执行；

4.通过验证代理验证操作结果并输出结果；

3.Manus的规划任务拆解和大模型的规划能力有什么区别？

Mannus的核心能力之一是自主规划和任务拆解，大家可能会觉得奇怪，大模型明明也具备规划和拆解的能力，为啥不直接使用大模型，Manus为啥还要采用多代理虚拟机这样一个特殊的架构来实现这个事情其中。

其中最主要的原因在于大模型的规划能力和任务拆解往往只是基于“文本生成逻辑”，规划结果也只是停留在文本层面，而非基于实际可行的操作，比如当用户要求“生成特斯拉股票分析报告”时，大模型可能输出步骤建议（如“先获取数据，再分析趋势”），但缺乏具体工具调用路径，如调用雅虎金融API、Python脚本编写、Matplotlib可视化等，因此规划不到具体可落地的层面；

另外对于一些复杂的任务，通常需根据中间结果动态调整策略，Manus的规划代理需要能实时监控执行代理的进度，并根据异常（如API调用失败）重新规划子任务，而单一模型难以实现这种闭环反馈，这就是大模型规划能力和Manus背后的规划能力的区别。

4.Manus是如何解决工具的获取和调用的问题？

前面我们已经知道了Manus具备自动调用工具和API的能力，其中这些工具可能来自如下3个来源：

1.内置工具库：包括浏览器、文件处理器、代码编辑器、图表生成工具等等，这些可能都是一些公开的工具组件，官方整合后放到工具库，并基于Claude在2024年6月20日发布的Artifacts，让Manus能够在对话中动态创建和修改这些工具，从而完成从代码到图表，从文档到交互式组件等直观内容的呈现；

2.API：其中包括数据获取的API以及具体某一个技术能力的API，过往我们搭建Agent的时候，我们是通过function call技术将API转换成模型可以调用的工具或者函数，每次在一个Agent 里面调用API的时候都需要单独做对接，这样的方式，就意味着如果要支持100种API，就要对接100次，这样就不具备可持续发展的条件，Manus之所以能更轻松的解决这个问题，得益于2024年11月25日Anthropic开源了划时代的“模型上下文协议”(MCP)，MCP解决了数据获取和功能获取等API的统一接入问题，一方面，市面上只要是支持了MCP协议的API，开发者都可以直接调用，有些指定的API如果还不支持，开发者可以通过自主的开发，让指定的API支持MCP协议，这样，Manus可以构建一个API工具库，这些工具可以被直接调用，不用再进行单独开发；

3.Computer use能力：另外，即使没有API和工具，通过Computer use的能力，AI应用可以不局限于专用工具，而是能像人类一样“看见”屏幕并操作计算机，移动光标、点击按钮、输入文本，真正模拟人类与计算机的自然互动，该能力由Claude在2024年10月22日发布，Manus利用该能力，通过跨端操作等方式，增添了更多的能力；

从这里可以看到，其实Manus并没有创造太多的技术方案，只是将这些大公司公开的技术方案利用到极致，用于形成自己的AI应用，他可能算不上是AI技术的引领者和贡献者，但是至少一定是利用开源技术做产品工程最极致的企业。

5. Manus调用工具的方式：云端异步执行与沙盒环境

1.云端计算环境：Manus的所有工具调用均在独立云端沙盒中完成，用户无需本地安装软件或配置环境。例如，生成HTML演示文稿或运行Python脚本时，直接在云端虚拟机执行，用户可随时关闭设备等待结果。

2.异步处理能力：支持用户上传任务后离线，系统自动分阶段调用工具并执行，完成后通过通知推送结果。例如，用户可提交旅行规划需求，Manus在后台调用地图API、酒店预订接口及预算计算工具，最终生成完整行程表。

3.安全性保障：调用API时优先使用权威数据源，避免非结构化数据的干扰；同时通过沙盒隔离确保用户隐私与任务安全。

三.透过Manus AI看Agent未来的发展趋势

1.Manus的产品形态，是否代表未来Agent的趋势？

个人的观点，Manus AI的这种产品形态，并不一定代表未来Agent的发展趋势，应用的本质是解决用户的应用场景问题，至于产品形态个人认为不重要。

ChatGPT等这些类型的AI应用，也并不是不能实现Manus AI的功能，前面我们理解到，Manus相比ChatGPT等应用主要是多了任务规划和拆解、工具调用（工具库、API、computer use）的能力，如果ChatGPT也同步支持这些能力，其照样也可以实现manus一样的效果，其中核心的多代理虚拟机架构、工具库、基于MCP协议的API、computer use等都并不适合Manus的公司原创，其他应用复现和支持的代价并不高，也就是说ChatGPT等类型的应用也能以其产品形态实现相同的应用效果。

2.Manus是否具备竞争壁垒，和扣子等Agent开发平台的区别

鉴于Manus的很多产品能力其实都是基于开源框架和技术造就的复杂产品工程，所以个人认为，并没有太大的核心竞争壁垒，优势仅仅是因为率先推出，可以抢先获取用户，而像扣子、腾讯元器等类型的Agent搭建工具，也完全有条件可以实现和Manus同样的能力，比如扣子只需要增加任务拆解和规划的能力，以及快速接入支持MCP协议的API，改变其当下通过Function call的方式对接API的方式，可能达到类似的效果，并且多智能体这种实现方式，在很早的时候，已经被应用于扣子的agent搭建流程中，只是目前多智能体需要人工取连接，不是通过模型自动串联，但是这个事情要实现不是很难的事情，对于字节来说。

结尾

OK，以上即为三白对Manus AI Agent建立的快速理解，从一开始不明所以，完全不知道这个东西到底是什么，到逐渐理解其实现方式，并对比之前的Agent产品，慢慢的理解这个产品，无论其产品能力如何，Manus的这种实现，也算的上是应用层的创新，他的实现方式，给AI应用的创业者们提供了一种做应用产品的思路，或许应用中的很过规划细节可以交给模型和规划代理处理，MCP之下的API接入的方式，或许可以改变目前AI应用接入API繁琐且困难的局面。

该部分在公众号的内容更新的内容暂时到此，更多深度的分析，我会持续更新到我的知识星球AI&商业增长研究，欢迎大家订阅！

同时也欢迎大家体验和使用我的研究学习助手AI快研侠，用它快速研究和学习一个行业、产品和支持，让你的知识获取效率更快。

53AI，企业落地大模型首选服务商

产品：场景落地咨询+大模型应用平台+行业解决方案

承诺：免费场景POC验证，效果验证后签署服务协议。零风险落地应用大模型，已交付160+中大型企业