我要投稿

【深度】从Manus到MCP：25年AI的三大新趋势

发布日期：2025-03-17 07:55:40 浏览次数： 1662 来源：Alpha Engineer

25年开年以来，AI发展如火如荼，DeepSeek R1、OpenAI CUA、Manus等重要创新层出不穷，眼花缭乱。

这里我将最近一个月以来的思考总结一下，对25年AI发展趋势做几点预判。

（1）Manus：Agent元年的一次抢跑

Manus推出之后，我们第一时间拿到了体验账号，进行了充分的体验测评。

先说结论：虽然Manus目前还有种种不足，但它的产品设计思路创意满满，值得我们给予充分的肯定。

Manus的核心架构基于“虚拟机+多Agent协同”模式，通过整合多个底层大模型（如GPT-4、Claude 3等）的API，实现任务的动态分配与模型调用。

Manus突破了传统AI助手仅生成建议的局限，实现了从“需求输入”到“成果交付”的端到端闭环。

Manus提出“Less Structure, More Intelligence”的交互理念，通过无代码化的自然语言接口降低用户使用门槛。

与此同时，Manus使用一个外置的markdown文件来管理Agent的任务规划，并且将阶段性的工作成果存储为独立文件，这也是一个非常有趣的创新点。

（2）Manus的不足与缺陷

Manus在MultiAgent的道路上提供了一种非常有趣的思路，但现在依然存在一些显而易见的不足之处。

首先是“幻觉累加”的问题。

Agent的本质是多次大模型问答的串并联。如果单次大模型问答的准确率是90%，串联10次的话，最终Agent回答准确的概率是0.9^10，只有1/3左右了。

在下面的案例中，Manus的任务是针对某上市公司进行财务数据分析。Manus很聪明的import了data_api模块，准备从雅虎提供的接口中调取财务数据。

但是在process_financial_data函数中，manus竟然把revenue、gross_profit等数据直接“硬编码”到了代码中，让人猝不及防。而且经过验证，这里的数据有部分是错误的。

如果原始数据出错了，那么后续无论分析得多么深入、图表做得多么fancy都失去了意义。

Manus的第二个问题是可供大模型调用的工具不足。

下面这个例子中，Manus的任务是写一篇关于“小米Su7”的市场分析报告PPT。

Manus完美的拆分了任务，并且检索了大量新闻，但是最后它无法生成一份PPT，因为它无法调用Office软件。

目前Manus输出的内容形式多为纯文本或者网页，还无法和人类工作流进行完美融合。

Manus遇到的第三个挑战是小院高墙的互联网生态。

互联网上有很多优质信息是存放在“围栏”中的。

比如当我们让Manus去分析比较市面上所有AI智能眼镜的性价比时，它聪明的找到了对应商品的淘宝网页。

但是当Manus想要打开具体产品页面获取价格性能等详细信息时，淘宝判定它为机器人，并拒绝了Manus的访问。

无独有偶，当我们让Manus为一家非上市公司进行出具商业分析报告时，Manus为了获取公司的最新融资进展，访问了CrunchBase数据库。

但是Manus的访问被CrunchBase判定为机器人，随后被无情的拒绝了。

互联网看似公开透明，实则存在大量类似小院高墙的情况，优质信息往往就存放在这些高墙之内，Manus无法直接获取，这无疑阻碍了Manus的工作效果。

尽管有着种种问题和挑战，Manus依然给大家描绘了MultiAgent的巨大前景，打响了Agent元年的第一枪，值得我们给予充分的肯定。

在Manus占据大家视野的同时，海外AI大厂究竟做了哪些技术储备呢？

（3）OpenAI CUA：一个会自主操作电脑的Agent

在今年的1月底，OpenAI发布了由其新模型CUA（Computer-Using Agent）驱动的AI智能体Operator。

CUA模型融合了GPT-4o的视觉能力和通过强化学习实现的高级推理能力，能够将任务分解为多步骤计划，并在遇到挑战时进行在我调整和纠正。

简而言之，CUA就是一个会操作电脑的Agent，它的运作原理非常直白且简洁，如下图所示。

首先，CUA会同时接受两种模态的输入：其一是文本指令，其二是屏幕截图。

CUA会同时处理这两种信息，并且生成一系列动作指令，比如“点击屏幕上坐标为(300,200)的点，并且输入XXX，按回车”。

电脑接受到指令并完成操作后，会将新的屏幕截图与新的任务指令返回给CUA，如此循环往复，直到获得最终答案。

那么CUA目前操作电脑的能力达到了怎样的水平呢？

根据OpenAI的官方测评，CUA在操作电脑和操作浏览器这两个场景上，相比上一代SOTA都有了巨大的性能提升。

但是相比人类而言，依然有着较大的差距。换句话来说，目前顶级的Agent依然没有办法像一个成年人一样正确的操作电脑，但我相信这个现状在今年内就会发生质变。

（4）Anthropic MCP：AI时代下的TCP/IP协议

刚才在分析Manus的缺陷时，提到了“工具不足”的问题。

Anthropic显然也意识到了这个问题，并在去年年底推出了MCP来从根源上解决这个问题。

MCP的全称是Model Context Protocol，它定义了应用程序和AI模型之间交换上下文信息的方式，这使得开发者能够以一致的方式将各种数据源、工具和功能连接到 AI 模型。

MCP之于AI，有点类似于TCP/IP之于互联网。

MCP有三个重要特点：

标准协议：将AI与所有工具层的交互接口统一成一个标准
动态发现：AI能够按需寻找并调用能够完成指定任务的工具或服务
双向通信：AI与工具之间的通信是双向的，有状态的。AI既能从工具获取数据，也能向工具发送指令。

当前越来越多的工具及服务开始接入MCP，呈现愈演愈烈之势，包括Google Maps、PGSQL、ClickHouse（OLAP数据库）、Atlassian、Stripe等等。

在Smithery平台上你可以轻松查找不同功能对应的工具及服务。随着越来越多的Server接入MCP协议，未来AI能够直接调用的工具将呈现指数级增长，这能从根源上打开Agent能力的天花板。

（5）2025年AI发展新趋势：后训练、RL、MultiAgent

这里我结合最近几个月以来的观察和思考，总结一下25年AI发展的几点重要趋势。

第一，预训练即将终结，后训练成为重点。

这其实已经是行业共识。去年年底时，Ilya在NeurIPS大会上提到一个重要观点：数据是AI时代的化石燃料，因为我们人类只有一个互联网。

与此同时，在今年DeepSeek R1的论文中，提到了后训练将成为大模型训练管线中的重要组成部分。

第二，针对后训练而言，强化学习将成为主流，监督学习的重要性逐渐下降。

DeepSeek R1带来最重要的启发是：纯粹的RL可能是通向AGI的正确路径。

随着TTS的增加，大模型会自我涌现出复杂的推理行为，而无需刻意引导。

如下边右图所示，横轴是大模型RL的迭代步数，纵轴是单次问答的token长度。我们可以看到，随着大模型RL步数的增加，大模型会自主的从“快思考”变成“慢思考”，从最开始每次回答100个token，到最后每次回答接近10000个token。

DeepSeek团队将这种现象称为“self-evolution”，并认为它是“the emergence of sophisticated behaviors”。

具体是哪些复杂行为的涌现呢？DeepSeek也给出了答案，比如：self-verfication, reflection等。

这个发现对于我们来说有着重要的启发。未来监督学习在AI训练中究竟应该扮演怎样的角色？监督学习是否反而限制了AI解决问题的能力？

是否不应该让AI通过模仿人类的思维方式来获得智能，而是让AI发展出更加原生的智能？

这些问题，都有待整个AI行业通过实践来给出答案。

第三，MutiAgent是确定性的大趋势。

如果将AI和人脑进行类比的话，大模型就像是人脑中的“前额叶”。

众所周知，前额叶主要负责高级认知功能，比如注意力的分配、思考推理、决策等。

但是仅仅有前额叶，大脑是无法处理复杂任务的。我们需要有颞叶来进行听觉信号的解析，需要顶叶进行阅读和算术，需要小脑来进行运动协调，需要海马体来进行记忆索引。

MultiAgent的定义恰恰就是让多个不同的模型之间互相协调，从单独的“前额叶”走向“完整的大脑”，从而处理更加复杂的现实任务。

在这个蓝图中，MCP就起到了非常重要的作用：协调统一大模型与各工具之间的数据通信接口。

（6）结语：抓好扶手，未来已来！

2025年是AI Agent元年，Manus的出现打响了第一炮。

无论是OpenAI的CUA还是Anthropic的MCP都指向了一个共同的未来，未来2年AI的发展速度将非常陡峭。

抓好扶手，未来已来！

（文毕）

53AI，企业落地大模型首选服务商

产品：场景落地咨询+大模型应用平台+行业解决方案

承诺：免费场景POC验证，效果验证后签署服务协议。零风险落地应用大模型，已交付160+中大型企业

相关资讯

2025-03-17

全球AI应用竞速，亚太强势崛起引关注

2025-03-17

一文读懂：模型上下文协议（MCP）

2025-03-17

一个MCP协议，万能USB HUB拓展坞，重新定义AI接入方式

2025-03-16

MCP vs API：模型上下文协议入门

2025-03-16

教育大模型有哪些，以及我们为什么需要教育专属大模型？

2025-03-16

MCP 是一座桥

2025-03-16

AI 大模型 MCP 协议的致命缺陷

2025-03-16

MCP详解丨Agent 爆发背后的关键技术

了解更多

160+中大型企业正在使用53AI

立即咨询预约演示

把握AI发展的机遇，共同探索、共同进步

2025-01-22

如何打造基于GenAI的员工服务机器人

2025-01-22

热点资讯

本地部署大模型？看这篇就够了，Ollama 部署和实战

2024-08-13

16个具有“联网搜索”功能的AI：总有一个适合你！

2024-06-13

OpenAI o1与GPT4o的对比分析

2024-09-23

Cursor 一个真正让程序员产生危机感的 AI 编程工具

2024-08-21

大模型｜“上下文长度”和“上下文窗口”不再傻傻分不清楚！

2024-07-31

一文带你了解大模型——智能体（Agent）

2024-05-28

50+个AI大模型在不同领域的应用案例

2024-08-04

全面对比dify、coze、streamlit、chainlit

2024-04-26

【深度】AI搜索产品深度分析-搜索原理和商业模式分析

2024-07-09

一文读懂OpenAI新发布o1系列大模型

2024-09-17

大家都在问

教育大模型有哪些，以及我们为什么需要教育专属大模型？

2025-03-16

我们能从Manus学到什么，企业版的Manus会长什么样？

2025-03-15

OpenAI ResponsesAPI：Manus的跟随者 or 标准的制定者？

2025-03-15

Manus爆火的背后，Agentic AI产品如何构筑持久的竞争优势？

2025-03-12

快思考+慢思考+落地执行+组织学习，DeepSeek的下一步演化方向？

2025-03-12

【一文看懂】大白话解释大模型的技术原理，为什么它那么聪明？

2025-03-10

【一文看懂】7B、175B，这些大模型参数是什么意思？它们是怎么算出来的？参数越多=模型越强？

2025-03-10

大模型时代，为什么模型都是多少B？

2025-03-10

热门标签

内容创作大模型技术个人提效 langchain llamaindex 多模态技术 RAG技术智能客服知识图谱模型微调 RAGFlow coze Dify Fastgpt Bisheng Qanything AI+汽车 AI+金融 AI+工业 AI+培训 AI+SaaS 提示词框架提示词技巧 AI+电商 AI面试数字员工 ChatBI 知识管理开源大模型智能营销智能硬件智能化改造 AI+医疗 MaxKB