微信扫码
添加专属顾问
我要投稿
深入探索通用Agent的形态和未来趋势,了解AI如何助力工作自动化。核心内容:1. 通用Agent的概念解析及其对技术发展的影响2. 通用智能体在实际工作中的应用示例3. 通用Agent的多样性和未来形态展望
文:王智远 | ID:Z201440
Manus火了后,大家开始关注一个新概念:
通用agent。
有人觉得,这东西会彻底改变未来技术的发展方向,还能颠覆大模型产品和人类交互方式;还有人幻想,以后只要说一句提示词,AI能搞定一切,完全不用自己动手。
不过,我觉得,通用智能体不是新概念,Manus也不是全球第一个AI通用智能体。
他们只是把自家产品定义为,一款连接思维、行动的通用人工智能代理,特点是能搞定各种复杂的任务,不仅能思考,还能直接给出结果。
所以,别被碎片化的消息给糊弄了。只要稍微查一查,就会发现早在2024年,网上已经有不少关于通用Agent的信息。
通用智能体(General Artificial Intelligence Agent)到底是什么?我举个例子:
你是一名市场部同学,老板突然要求:明天上午10点前,要一份新产品在小红书的推广分析报告;过去,你得先登录后台导数据、整理成图表、放进PPT,再检查格式,最后交给老板,整个过程繁琐又耗时。
如果有一个通用agent,只要把数据下载下来,交给它,然后说:帮我整理成一份报告,把数据对比部分可视化,明早10点前交给老板。
接下来,通用agent会自动分析数据、生成图表、总结结果并提出建议,最后准时把报告交到你手上;理想情况下,它甚至能帮你列一个待办清单,告诉你要做什么,剩下的繁琐任务都由它完成。
通用agent让人从重复性工作中解放出来,专注于更重要的事情。
我让AI帮我查了一下它的完整定义。AI说:
一种很聪明的AI,不像只会干一件事的“专才”。它能理解复杂需求,规划步骤、调用工具,是自动完成多种任务的“多面手”,完全像真人一样应对灵活场景,真正实现从单一功能到全面助力的跨越。
通用智能体有很多不同形态。第一种,我想到了钉钉AI助理。
用过钉钉的朋友应该知道,你对AI助理说:查询一下我和张三关于A方案的聊天记录,并把关键部分提炼出来形成文字,形成代办事项。
它会自动搜索对话,提取关键内容,整理成清晰的总结,还能把需要跟进的任务直接加入待办清单,完全不用自己动手去翻。
我认为,这种工具挺有潜力。你想,作为企业里的常用工具,几乎每个人工作时都得用,而大家在用的过程中,自然会产生和沉淀大量的数据。
这样一来,AI助理作用就很明显了:
它能把零散的数据整理成有用的信息,再通过各种工具直接串联起来,变成你可以直接用的东西。这样不仅个人工作效率提高了,公司整体协作也会更顺畅。
但是它也有一定劣势。
对比Manus这样的产品形态来看,Manus更像一个“智能体的串联者”。它能够把不同专长的智能体串联起来,通过一个核心智能体来协调这些能力。
钉钉AI助理目前还做不到这一点。它更多是单独完成一些具体任务,比如:搜索聊天记录、安排日程等,这些功能有些目前还没有形成深度的联动。
换句话说,钉钉AI助理目前更像是一个高效的「单兵」,而Manus则像是一个指挥多个专家协同作战的“团队领袖”。
所以,从应用场景的深度和关联性来看,Manus横向能力深,尤其在多任务协作或者复杂流程处理时,而钉钉目前集中在企业内部的基础效率提升上,未来如果能在任务串联和智能化协作上进一步突破,可能会更有竞争力。
第二种产品形态来自于Deep Research、豆包、Kimi、通义夸克以及GROK3这类大模型对话产品未来的演变。
为了更好地理解这一点,我拿Deep Research介绍。
Deep Research是ChatGPT内嵌的一款增强能力,也算是一种工具,专门为自动化复杂的在线多步骤任务而设计。它不仅在语言风格上和DeepSeek高度相似,连功能也相近。
它能从海量的数据里快速找到有用的信息,还能帮你分析、总结,甚至生成报告;你可以把它看成一个特别聪明的研究助手,只要提需求,它就能搞定大部分繁琐的工作。
举个例子:
你是一名创业者,想知道未来三年健康食品市场的趋势。只要告诉它这个要求,它就会去查找资料,整理出重点,比如市场规模、消费者喜欢什么、技术怎么发展等等,最后给你一份报告。
但这不是最关键的。
最重要的是,它在做报告时,不仅能写出文字,还能做出表格、代码,甚至是思维导图,这样你就能更清楚地看懂这些信息。
不过,它的可视化能力更像1.0版本,功能有了,体验还不够“惊艳”。为什么是1.0版本呢?有三点:
一,基础功能实现了,细节还不够完善。目前我看到报告,大多以Markdown格式为主,内容以文字和简单的结构化数据为主。换句话说,内容呈现方式相对“朴素”,缺乏更直观的视觉设计。
二,它还不太会把图片、图标这些多媒体元素加进去;三,它的交互性也不够强。
我前几天让Kimi帮我生成一个表格,它很快就做出来,但想修改一下里面的内容,却没办法直接操作,最后只能一次次给提示词,一次次生成。
这并不意味着它们潜力有限。1.0版本是一个开始,以后,当我们用Kimi、豆包、DeepSeek等工具时,它们的多模态能力会越来越强,交互也会更厉害。
你可以对它说:帮我写一段话,然后直接做成一张海报图片。它就会马上生成一张设计好的图片,你保存下来就能直接当海报用。
所以,这些产品的发展,大概会经历四个阶段:
第一个阶段,简单搜索和对话工具,主要帮你找信息、回答问题。第二个阶段,变成一个“工具箱”,能敲代码、做表格。
第三个阶段,全能型选手,把文字、图片、图表能力融合在一起,让体验更丰富。
第四阶段是一个通用Agent,具备高度的自主性和适应性,能够根据需求自动调整任务流程,甚至猜到你下一步需要什么,真正成为一个通用的智能助手。
这,就是大模型要做的事情。它们如何进阶,就看每个企业对它们的核心价值怎么定义了。
接下来,谈谈第三种,这个看法受Flowith启发。
Flowith是一个画布式创作平台,用起来很直观,像在白板上写字一样。
你可以在上面创建很多节点,每个节点代表一个问题或主题,还能把它们连起来,形成一张思维网络,这种设计让我们可以同时处理多个任务。
Flowith 2.0版本把AI创作、知识管理和服务都整合在一起,它还有很多实用功能,比如:生成思维导图,还能调用Midjourney,支持GPT-4、Claude-3等AI模型。
Flowith还有个“智能体市场”,你可以分享自己设计的AI工作流程,别人也能用,这样大家能互相学习和进步。
我讲这么多,到底想表达什么呢?
这类产品会从一个很简单的入口开始。然后,根据创始人对AI产品的理解,会逐渐发展成一个完整的任务流或工作流。
在这个工作流上,我们可以做任何自己想做的事情。最后,对话框会变成一个通用的智能助手。也就是说,你只要提出一个问题,它就能帮你打通所有环节,完成任务。
第四个看法来自于:Taskade AI Agents。
通俗地说,Taskade AI Agents是一个项目管理中的智能助手团队,它们用AI驱动,自动完成一些重复或繁琐的工作,让你在团队协作和项目管理上省心省力。
你现在要计划一个公司年会。得写宣传文案、整理预算数据、分配任务给同事,还要盯着进度。全靠自己做,要忙晕。
Taskade AI Agents 像请来的虚拟助手,你说“写一段年会邀请文案”,它马上生成一段给你改改就能用;把杂乱的预算表格丢给它,它就整理得整整齐齐。
告诉它“把场地布置任务分给小李”,它自动分配,还能提醒截止时间。你问“年会还缺啥准备”,它还能根据情况给你建议。你就像跟一个聪明的小秘书在聊天一样,而且,你还能“训练”它,让它更懂你,干活更贴心。
所以,你在这个平台建立任务的那一刻,Taskade AI Agents会立刻帮你想出一些点子,把它做成任务、拆成具体步骤。
这有点像 Notion,但又不一样,区别在于:
Notion像一个灵活笔记本,得自己搭建结构和输入内容;而 Taskade AI Agents 是“活的”,它会主动帮你生成内容、分任务、预测下一步。
还有Taskade更偏向团队协作和项目管理,AI 助手直接嵌在里面;而 Notion 更像全能工具,适合个人笔记、数据库,但自动化没那么强。
不管怎么说,它像一个通用Agent,从建立任务那一刻起就全程陪着你,一直到任务结束,帮你把每一步都安排得妥妥当当。
第五种通用Agent 产品形态是:Zapier AI Agents。
它是做什么的呢?
你随便说一句:帮我把新客户名单整理好,发邮件跟进,它就能立刻从你的表单里挑出名单、写好邮件并发出去。
这种体验特别丝滑,主要体现在它的聊天框上,跟我们平时用 Kimi 或豆包聊天的感觉差不多,但它有个特别的地方:
我说一句话,它不光是回复,是直接变成行动;它能在超过 7,000 个应用中都能用,自动处理各种繁琐的业务任务,只要动动嘴就能搞定。
和Taskade AI Agents比起来,区别很明显。
Taskade的AI助手像专心在自家项目管理平台里干活的,而Zapier AI Agents是个跨平台的“万能助手”,擅长把分散在不同应用里的工作串起来自动化。
简单说,从下命令那一刻起,它就像个不知疲倦的助手,把任务从头管到尾。
它的客户群也挺广,官方提到有超过5万家企业通过AI功能改变了工作方式。在应用场景上,它覆盖创业者、中大型团队、营销和电商从业者等各种类型。
最后提到的一种新形态,是我今年2月份在腾讯报告中看到的。报告的名字叫《DataLab:A Unified Platform for LLM-Powered Business Intelligence》。
它主要讲了什么呢?
DataLab是一个利用人工智能技术的智能平台,它能够整合企业中各种复杂的数据处理和分析任务。数据专家们可以通过简单的对话,告诉平台需求,然后会自动生成所需的内容和图表。
简单来说,DataLab是一个非常智能的工具,它能够让数据处理工作变得简单而高效。
我看完报告,理解的是:DataLab目标构建一个大型的LLM(大型语言模型)平台,并整合多个智能体。智能体各有专长,比如有擅长编写SQL语句,有擅长生成图表,还有擅长数据分析。
最终,你只要对着一个Chatbot(聊天机器人)提问,比如:“给我展示今年销售额最高的产品的柱状图。”平台就会立即调动资源,给你生成所需的图标。
总的来看,我认为,Agent即将进入一个新的发展阶段。
一些代理会采用自上而下的方式运作,它们从项目、任务开始,利用一个聊天机器人(chatbot)将多个智能体连接起来,让用户在一个平台上使用自己的产品。
要么把Agent变成一个AI助理,用户可以将各种任务交给它,让它来管理和执行;还有采取自下而上的方法,即从简单搜索、记录小习惯开始,逐步构建起一个完整的自动化系统。
说白了,以前一个大模型对话框不够用了,现在要用一个对话框,调动多种工具,并解决复杂的任务。
53AI,企业落地大模型首选服务商
产品:场景落地咨询+大模型应用平台+行业解决方案
承诺:免费场景POC验证,效果验证后签署服务协议。零风险落地应用大模型,已交付160+中大型企业
2024-08-13
2024-06-13
2024-09-23
2024-08-21
2024-05-28
2024-07-31
2024-08-04
2024-04-26
2024-07-09
2024-09-17
2025-03-08
2025-03-08
2025-03-07
2025-03-07
2025-03-05
2025-03-05
2025-03-05
2025-03-04