我要投稿

三任务两失败，通用agent暂时只能坐小孩那桌

发布日期：2025-04-25 06:14:14 浏览次数： 1518 作者：搞AI的K同学

"通用智能体将彻底改变人类工作方式！"、"Agent真正开启AI商业落地！"、"万能助手让你躺着把事情做完！"——最近这类标题充斥各大平台，似乎不说自己产品是"通用智能体"都不好意思出门见人了。但实际体验下来，只想说一句：通用智能体，目前也就是坐小孩那桌的水平。

最近测试了当下最热门的两款产品：coze空间和Manus。结果如何？三个实际任务，两个彻底失败，一个勉强及格。

任务一：抓取微信公众号文章（彻底失败）

第一个任务很简单：帮我抓取某微信公众号最近20篇文章。

公众号的文章不支持外部抓取，坦诚说，确实有难度。看着这位"通用智能体"费劲地打开搜狗微信搜索（已经是网上教程里的老路径），然后神奇地搜出了2020年的陈年旧文。

我想，也许它会自我纠错？然而并没有。它持续在错误的道路上越走越远，像个迷路的孩子，却还自信满满。

整个过程消耗了大量的tokens。这就像你请了个自称"资深助理"的人帮你找资料，结果他不仅拿错了文件，还顺便帮你浪费了一大笔打印费。

任务二：小红书情绪化标题总结（勉强及格）

第二个任务相对成功：总结小红书的情绪化标题特点。

这次两家都算完成了任务，但方法却是最原始的"浏览器搜索+文章整理"。它基本上是把别人已经写好的分析文章重新组织了一下。

效率呢？起码不如元宝。速度慢、分析浅，就像一个刚入行的实习生，能交差但算不上出色。

任务三：北京房市分析（惨不忍睹）

第三个任务是分析北京房市在小阳春后的情况。这下真是露馅了。

通用智能体只会在公开网络源上查找信息，却不知道房地产领域的公开信息有多不靠谱。结果可想而知：分析报告充斥着过时数据、错误观点和表面的市场"共识"。

这就像让一个只读过《炒股入门》的人给你做投资建议一样危险。它既不了解房地产市场的运作机制，也不知道哪些信息源更可靠，更不用说解读数据背后的真正含义了。

通用智能体为何"通而不精"？

表面原因是技术不成熟，但根本问题在于它们错误地低估了垂直领域的专业深度和复杂性。

就拿房地产分析来说，这需要对区域政策、历史成交、供求关系、土地市场、银行信贷、人口流动等多维度数据的综合理解。光靠搜索几篇网络文章就想得出有价值的分析，简直是痴人说梦。

这就像医学诊断一样，表面症状相似的疾病可能需要完全不同的治疗方案。没有深厚的专业积累和对特定领域的深入理解，通用智能体再怎么"聪明"也只是在浅水区打转。

真正的智能体应该是什么样的？

通用智能体的价值不在于"样样都会"，而在于"知道谁会"。

真正有价值的智能体架构应该是：一个高效的协调者 + 多个垂直领域的专家。就像一个优秀的CEO，他不需要亲自编程、设计产品和跑市场，但他知道什么任务该交给谁，如何协调资源达成目标。

但在专业模型还不足够的今天，通用老司机带到哪条路，可能都不太通畅——也许它适合处理那些标准化程度高、不需要深度专业知识的任务：安排会议、撰写简单邮件、整理信息等。这些任务虽简单，但确实能节省时间。而对于任何需要专业判断的任务 —— 无论是市场分析、内容创作还是技术问题，通用智能体更像是一个入口或分发器，而非终极解决方案。

通用智能体靠谱吗？

别被炒作迷惑。AGI不可能凭空出现在人脑里，它需要经历从浅层到深度的渐进式发展。

通用智能体短期内无法取代垂直领域专家，但它可以成为连接用户和这些专家的桥梁。就像一个高效的前台接待，它不需要懂所有业务，但需要知道该把客户引荐给谁。

真正的智能革命，不是用一个"万能"工具替代所有专业工具，而是让不同工具在各自擅长的领域发挥最大价值，并构建起它们之间高效协作的机制。

目前的通用智能体，确实只适合坐小孩那桌。但也别悲观，每个大人都是从小孩长大的 —— 前提是，它得先学会承认自己的无知，而不是装作无所不知。