微信扫码
添加专属顾问
我要投稿
探索AI技术边界,预测产品形态的实践案例 核心内容: 1. 预测逻辑:通过公众号预告视频分析产品特性 2. 产品形态:独立虚拟环境,提升AI与用户交互体验 3. 思考价值:分析AI技术进展和能力边界,超越产品本身
Manus的产品合伙人在产品正式发布之前发了一个预告的公众号内容,我做了一个预测,最后发现基本都猜中了,现在回想一下其实整个逻辑并不复杂,就像他们自己说的一样,其实没有什么秘密,只是大家好像都没有注意到一些底层技术变化带来的影响。
当时预测的逻辑是这样的:
所以从上面的几点也基本可以推断出来大概的产品形态,虽然基于之前的信息能基本预测到,但是实际能做出来看到最终的产品还是非常惊喜的,有种仿佛看见思想的齿轮咬合现实世界的传动轴,思维星火在物质世界燎原成功
对Manus实现猜想分析的出发点并不是想去了解所谓的是不是套壳或者所谓的壁垒,而是希望通过分析的方式来锻炼自己对于AI的技术进展和能力边界的思考,这才是更有价值的部分。
所有的分析都是基于一些用户自己分享的案例和官方的大部分的案例,所以大概率是错的,但是对错并不重要,能促进思考和启发更加重要
在开始分析之前,我们还是需要沿着预测的逻辑看看Agent到底是什么。Agent的第一次被大众所认知,应该是在2023年3月GPT-4发布之后,几个开源项目的发布,其中最引人关注的就是AutoGPT,截止到目前,这个项目在github上的Star数是夸张的173K,当时看过相关的效果之后,最大的感触就是原来还可以这样设计和使用AI,而不是单纯地进行问答而已
当然实际体验之后我们也会发现这个项目在当时AI能力的加持下的一些问题:
所以从上面的两点我们也可以看到,底层模型的智能程度和工具使用是Agent的两大基础,而这两大基础在2024年下半年都有了非常大的进展
当时还有一篇文章也详细的介绍了Agents的框架和相关设计逻辑,现在回看我们会发现,Agent怎么做其实一直都有方向,只是从2023年开始到现在我们不停的被各种其他的事情带偏了,而没有对于底层技术的发展引发的上层应用的变化保持足够的关注
现在仔细看之前的文章和研究看一遍,发现答案可能一直都在。当然这可能也是当前AI产品创业中最难的部分,你不知道现在不行的事情是不是什么时候就可以了,而如果你没有意识到这个事情的发生的话,你就可能会做了非常多的无用功,或者错过一切
主要的分析方式就是把官方的案例和一些用户的案例进行回看,看看里面到底发生了什么,有哪些特殊的地方,以及基于这些表现来完成产品设计层面的猜想。当前也会结合一些官方的说法来综合考虑可能的技术方向和具体的解决方案
这个过程中也发现有些官方的案例中也存在一些明显的错误情况,可能也是产品早期表现不稳定的一个表现
基于我们能看到的部分:
2. 新建文件夹之后,会进行todo.md文件的新建,拆分本次任务具体的todo内容,这个内容的拆分也有几个值得注意的地方
基于前面分析的一些过程信息,我们可以大概的猜测一个Manus的具体框架和可能的运行逻辑
可能的框架:
记忆模块:
规划和决策模块:
这应该是Manus的核心模型,主要的任务包括:
执行模块
执行部分其实有点不太能确认,因为理论上这部分也快成放到规划和决策模型一起,由大模型B直接基于环境上下文来进行任务拆分和执行驱动,但是不太确认放到一起应该怎么做提示词上的设计和构建,感觉有点太复杂了,需要的判断和执行的内容太多了(也可能是太菜了,不太能得清楚放到一起能怎么做),所以比较简化得就是在拆分一个执行模型出来处理。不管实际的框架是怎么样,执行模块的主要任务是:
如果执行模块是个独立的Agent的话,可能大模型会是一个基于Qwen的开源模型进行SFT之后的大模型,需要的能力相对比较明确
环境上下文
环境上下文主要是指的规划和决策模型在每一次的请求的时候所带的上下文的信息,包括记忆、与用户的对话信息、todo文件当前的执行情况、文件夹的情况等等,通过这些上下文来判断当前应该进行具体什么动作
工具调用:
最后工具的调用只列出来了几个比较重要的,理论上可能会有更多的工具来辅助完成任务
应该是存储了很多工具相关的执行的知识信息,包括记忆模块,可能都是基于RAG的方式,毕竟单次任务需要用到的信息和工具可能不是全量的,这种方式可以减少模型上下文的压力,同时也进一步的减低单次执行的成本
所以官方才会说越狱了模型的提示词其实不太准确,因为你的任务不同,那最终去请求大模型的时候带的上下文的信息是不一样的,看到的可能也只是框架,并不是全部的内容
这是Manus比较有争议的一点,也是我们在于OpenAI的Deep Research产品的效果对比时能感受到差异,我们用一张表来对比一下
Manus确实相当于开辟了一个新的赛道,不管是从产品的形态,还是从实际采用的技术路线,可以说是在技术发展的过程中找到了一个比较合适的契机和中间状态来把用户的体验从40分带到了60分
coze类的产品之前最大的问题就是泛用性不足以及构建Agent的门槛还是太高了,以及整个过程人为介入的程度还是太多了,本质其实还是一个人类为主的软件,人类驱动和主导。这种情况下其实是弱化了模型的智能表现的,特别是在当前技术的进程下,AI的智能程度已经超过了大部分的人类
所以通过把AI大模型做为主导来驱动Agent是个必然的趋势,当然在这个技术发展趋势下,模型和产品的边界必然会越来越模糊,两条看似不同的技术路线的目标是高度一致的,就算是Manus也不可避免的需要对模型做一些后训练来完成产品体验的提升
Manus对于模型在工具调用或者任务拆分上做的后训练的处理也带来了新的启发,就是模型的后训练对齐不一定非要面向与人类对话对齐,而可以更多的考虑面向工具调用,甚至去操作浏览器的方向去对齐
同时从当前我们人类日常产生的数据和内容的角度可能需要更进一步的思考怎么能更好地给AI使用效率更好,之前的所有文件格式、文件夹的设计本质是为人类可读和管理服务的,而以后可能我们需要更多的考虑这些内容怎么更好地被模型消耗掉,可能之前的很多设计都是没有必要的
最近Andrej Karpathy在X上就提到的类似的观点
SFT和RFT是在模型后训练阶段两种不同的技术路线和方向,不同的技术也决定了模型最终的表现和上限。
在“12 天 OpenAI 活动”第二天,OpenAI 公布了一种名为“强化微调”的新模型微调技术,最大的特点是相较于SFT的方式,有更少的数据和算力,更高的质量的特点,可能几十条数据就可以完成模型的训练过程
这个RFT的过程给人最终的感受就是一种授人以渔的感觉,就是基于结果来推理和学习过程,更多的强调的是掌握具体的方法和原理,这个方法和原理不是靠死记硬背来的,而是自己去探索和学习理解的。基于SFT的学习就会给人一种在模仿的感觉,而且是那种形似的模仿,而不是神似的模仿
所以RFT可以获得更高的上限和泛化得能力,毕竟掌握基础的原理之后,可能就可以举一反三,做出更好的决策和行为表现
监督微调(SFT)和强化微调(RFT)虽然都依赖标记数据,但应用方式各异
从实际应用场景的角度,SFT和RFT也有明显的差别:
同时RFT还可以作为SFT的数据标注的手段,比如需要大量的SFT的标注数据,可以先用少量的数据进行RFT训练一个标注模型来辅助完成标注工具。所以两个技术本质并不是互斥的,需要基于实际的场景进行技术选择
最后我们可以用一张表来对比展示一下两种技术的差异:
对于RFT感兴趣的可以再把OpenAI发布的时候的视频找来看看,或者这篇文章,非常全面地介绍了RFT
所以关于Manus模型的后训练,个人猜测可能还是SFT居多,当前表现出来的一些套路感可能和这个也有关系。当然RFT也是2024年12月OpenAI才在12天的产品发布活动中对外发布,而且到现在都还没有正式上线,可能关于技术应该怎么做,还是有非常多的需要探索的工作(当然也不排除OpenAI处于竞争的角度决定推后这部分内容的对外发布,毕竟也不是第一次了)
如果抛开具体技术实现上的考量,Manus的产品本身确实就是非常大的创新,不管是AI+虚拟机的定位,还是在整个过程中都让用户看到整个实现的过程,都给人一种这不是我期望的AI的样子嘛
我们可以设想一下,假如所谓的AGI真的实现了,我们期望的产品是什么样子的?是不是我们就提出需求,AI自己就去干活了,碰到困难或者不确定的地方就来找我们,同时我们还可以看到它的进展情况,以及不要打扰我们自己的工作节奏,甚至越用越懂你,记忆的机制保证很多你的偏好和要求不需要重复的提出来,跟你协作的时间久了你的工作习惯也能get到了。你看这不就Manus现在的样子,所以Manus产品层面是一个具体的创新,至少把我们想象中的AGI的产品给真的做出来了
去年Claude 3.5发布之后,大家用它去解决各种问题而不是单纯的用于工程中写代码,比如教育领域生成各种交互式的网页来更好传递知识,比如制作各种精美的卡片信息比如简历、海报等等
代码能力的提升其实是一种通用能力的提升,因为代码的本质是用一种相当通用的语言去解决各种通用场景的问题,目标是背后的问题,而不是代码本身
大模型对于自然语言与代码之间的打通其实是让自然语言直接与具体的问题打通了,我们可以基于我们自然语言的需求直接去完成对应的任务了,这个变化的趋势被Manus团队敏锐的捕捉到了,coding的能力其实是极大地提升了Agent的通用性
我们可以对比一下Manus和ODR产品的一些差异,我用了一个Manus的用户案例(用户提交的一些使用案例)与Grok的Deepsearch(毕竟可以白嫖)进行对比
注意对比的目标不是比较产品的效果,而是去感受所谓的端到端的RFT模型的表现与基于工程方式实现的差异,以及在当前时间点,Manus明显是通用能力更强的,不仅仅能完成ODR产品信息检索和收集类型的任务,还可以完成一些数据处理和分析类的任务
具体的任务需求是:Can you create resources for me to learn the language telugu?(您能为我创建资源来学习泰卢固语吗?)
先看看Manus的表现:
首先是熟悉的todo list
最后任务完成之后,后非常贴心的交付一个压缩包给到用户
我们再来看看Grok的Deepsearch的情况,同时非常建议看看原始的Thoughts,这个内容可以更好的帮助我们理解端到端RFT之后的差别
对于具体的对比感兴趣的可以,分别看下原始的内容,这是Manus的回答,这是Grok的回答
不过你要是看结果,很多时候可能Manus的结果是不差的,甚至你会感觉比当前ODR的效果更好,我觉得这是个边界和泛化的问题,就像我们会发现推理模型R1的回答很多时候可能都比非推理模型好,但是我们真的所有的问题都需要深度思考吗?回到Manus上,我们真的所有的任务都需要结构化思考吗?以及我们真的所有的任务都拆分结构化之后分步骤执行就可以的吗?
显然如果从更加通用的角度,我们需要的是能更底层的模拟人的思考的方式,会反思,会基于反馈改进自己的思路和方式,而不是一切都按照线性的方式进行规划执行
所以这个点其实也限制了Manus更加广泛的通用性,注意我不是说Manus不是通用的,而是可能还不够通用,后面也会展开一下关于“通用”这个点
所以单纯从产品的角度,其实Manus是非常好的创新,特别是具体的形态和表现上,满足了大家对于AGI的期待和想象,对于底层技术的进展和和场景的把握都非常精准,能很好地完成融合,特别是自己尝试去复现和设计整个框架的过程,更是能深刻的体会到
如果从技术路线的角度,明显是面临更大的挑战的,毕竟你的直接竞争对手可能就是OpenAI、巨头Google这些巨头了,后面的迭代上技术路线的选择可能也是关键,怎么能更好地把能力内化到模型层面是更有挑战的
基于模型和产品的边界趋于模糊,Manus与阿里Qwen的全面合作就显得尤为关键,合作除了更好地服务国内的用户(毕竟有合规和监管的需求),怎么能更好地与模型结合来完成产品层面体验的持续优化也是重点。技术内核上能怎么与模型结合得更加紧密是非常值得期待的,毕竟Qwen在开源模型生态和推理模型上的进展都是国内非常领先的,怎么能1+1大于2就是接下来的重头戏了
这也是Manus这次比较有争议的部分,我不想聊具体的细节,因为其实也算是经历了他们从最小的圈子持续破圈的过程,其实跟DeepSeek的事件有点类似,但是整个过程都有点太快了,不管是开始的出圈还是快速地反转都太快了,中间有太多的噪音了,也深刻地感受到了产品宣传这个事情很多时候是不太受到产品团体自己控制的,或者说自己能控制的只有很小的一部分而已
不知道是不是受到上一轮互联网创新和创业的影响,大家对于当前AI产品和应用的进展总是特别苛责,上线第一天就喜欢去质问壁垒是什么?好像第一天就期望看到终局一样
但是终局是非常难预测的呀,不知道有多少人还记得小红书刚开始是做什么,谁能想到他们会变成今天这个形态和生态位置呢?事情是做出来的呀,壁垒其实也是一样的,没有什么是你做的第一天就有壁垒的。当然对于壁垒的思考是产品团队需要思考的,但是我觉得不是从所谓的壁垒的角度去思考,而是怎么能给用户持续交付更好的体验和和价值,这是不变的核心,这才是一切根本
下面这个观点也是对于这个事情和壁垒比较好的阐述
Manus 有点像当年的理想one,用一种技术上来看略显蹩脚的手段,证明了一个庞大用户需求市场的存在。 就像理想定义了无续航焦虑+冰箱彩电大沙发的家庭汽车,Manus 也奠定了未来 3 年内AI应用的产品方向
最后我们可以来展望一下未来,今年年初DeepSeek开启的RL的新路径到Manus对于Agent的呈现都让我们对于2025年的AI的持续进展充满希望
从Manus的角度肯定是机遇和挑战并存的
虽然我们还叫Manus是AI应用,OpenAI发布的是底层模型,但是明显感觉到边界在越来越模糊,ODR就不仅仅是个产品,还是一个模型,是一个o3的RFT版本
深度研究模型由针对网页浏览优化的早期版本 OpenAI o3 提供支持,该模型学习了核心浏览能力(搜索、点击、滚动、解析文件),并通过对这些浏览任务的强化学习训练,学会了如何推理以综合大量网站信息,找到特定内容或编写全面报告,类似于 Deep Search,Agent 必须在内部执行目标任务:它们"动态指导自己的过程和工具使用,控制完成任务的方式"。
当然Manus与阿里的合作也是在借助更多的力量展开竞争,开源模型、DeepSeek的R1毕竟是在RL路线上的第一代的版本,所以我们有理由期待底层模型和后训练上持续地进展,能对于Agent的表现有多的加持
当前Manus完成的任务还是比较偏一个人有一台电脑就能完成的场景,但是我们有更多的场景是需要与人协作完成的,很多工作不是独立完成的,Agent怎么与其他人协作,甚至你的Agent怎么与别人的Agent进行协作都是值得我们期待的
最后还有一点就是关于上下文的和外部环境信息的获取,虽然现在Manus可以上传文档,可以去定义一些任务完成的偏好信息,但是这样还是门槛太高了,对于我们实际使用的时候还是体验不是那么好的
想象一下,假如AI不仅能控制自己的电脑,还能看到用户的电脑和资料信息,同时能智能的判断哪些资料和信息是当前的任务需要的,而不是靠用户自己的选择和上传,是不是能更好地完成更广泛的任务,如果真的可以到这种程度,可能就真的不是我们在驱动AI了,AI不需要我们提出一个问题和任务才能给我们一个回复,而是随时随地与我同在,看到我们所看到的,然后更加自主的去完成相关的任务解决相关的问题
最后还是想补充一句,你真的尝试去思考、设计其他产品的实现过程,你才会理解和感受 评价比实际去做容易太多了
所以不要太多的关注所谓的是不是套壳,是不是有付费宣传之类的,什么几个小时开源复现等等,那些都不重要,你能把产品做出来解决用户的问题才是重要的
希望大家都可以少些噪音,多些自己的思考,当然我想强调一遍,对于Manus的实现思路的思考也完全是自己的猜测,大概率是错的。
思考的过程更重要,结果不是那么的重要
53AI,企业落地大模型首选服务商
产品:场景落地咨询+大模型应用平台+行业解决方案
承诺:免费场景POC验证,效果验证后签署服务协议。零风险落地应用大模型,已交付160+中大型企业
2025-03-31
Cursor + Flux 构建高质量本地运行的文生图 MCP 服务
2025-03-31
【干货】一步步带你认识大模型的 Function Call
2025-03-31
智谱上线AutoGLM沉思,OpenAI不再独享Deep Research
2025-03-31
求求你们别再吹嘘Manus了,真没你们说的那么强!甚至,想想就来气!
2025-03-31
谷歌 AI 王炸升级!Gemini 2.5 Pro 已免费开放给全部用户!推理能力碾压对手
2025-03-31
MCP 重构 Agent 生态,深入探讨其现状与未来
2025-03-30
大模型领域常见的7个术语
2025-03-30
忘掉 Manus 吧,MCP 才是 AI Agent 的版本答案!
2024-08-13
2024-06-13
2024-08-21
2024-09-23
2024-07-31
2024-05-28
2024-08-04
2024-04-26
2024-07-09
2024-09-17
2025-03-30
2025-03-30
2025-03-28
2025-03-27
2025-03-27
2025-03-27
2025-03-27
2025-03-26