支持私有云部署
AI知识库

53AI知识库

学习大模型的前沿技术与行业应用场景


manus测试,让manus来做两个分析类的任务

发布日期:2025-03-24 21:23:50 浏览次数: 1590 作者:Chal1ceAI
推荐语

探索AI分析能力,manus测试报告新鲜出炉!

核心内容:
1. manus游戏评论分析的流程与问题
2. 热门大模型应用场景的分析报告
3. AI在数据收集与分析中的局限性及反思

杨芳贤
53A创始人/腾讯云(TVP)最具价值专家
今天拿到了manus的资格,第一时间就来尝试一下,两个链接我都已经公开,放在文末,大家有兴趣可以去看看。

任务一:游戏评论分析

我的第一个任务就是让它给我做一个游戏评论的分析,我选择的游戏是《苏丹的复仇》,应用商店选的是google play,同时还指明要中东地区的评论,将任务目标发给manus之后,它就开始帮我们工作。
在这个任务下面它并没有给我创建一个todo文件,没有做一个任务规划,而是直接开始搜索《苏丹的复仇》这个游戏,本来已经搜索到相关结果,但是在进去相关页面的时候就出现了错误,之后manus就重新寻找其他方法来收集数据:
它用阿拉伯语先寻找相关的网页,然后找到网页之后会对网页进行浏览,之后把网页拉到评论区,阅读获取评论区的内容。
收集到相关的资料之后,它就开始把阿拉伯语翻译成我们中文,然后对他们进行整理和分析。
在把分析内容输出出来之后,我还让它帮我做成网页。
看到这你是不是认为它真智能?其实不是,等下给你们看它收集的评论。
大家的各种焦虑都是无良媒体发出来的,毕竟在官网挑选的案例当中确实惊艳,以目前的ai水平大家还不用太过焦虑,前面我也写了一篇文章讲这方面的事,感兴趣的话可以点击看看:AI抢“铁饭碗”?——人类视角下的理性思考
回到正题,它收集的评论条数你们猜猜多少,只有3条:
那出现这个情况的原因是什么呢?答案很简单,网页上只显示了3条,一开始我以为是没登录所以只显示了前3条评论,我自己登录去对应的之后,发现也是只显示3条。
那有没有显示全部评论的选项呢?其实是有的,但是估计是模型不认识位置在哪里,我进去之后往下滑一下就找到对应的位置:
其实就是用户评论和评分中间这个绿色的文字部分,翻译过来就是:“展开所有评论”,模型没有识别到这个,这就是为什么manus只拿到3条评论的原因。
这时还有一个问题,为什么它不用爬虫类的技术呢,这点我也很疑惑,不知道为什么,google play应用商店在github上是有别人开源的库能做数据爬取的,叫google-play-scraper,只需要填写应用名称、地址和评论条数这些就可以,但是很显然manus并不清楚这件事。
除此之外,它也不会自己写一份爬虫代码去对网页进行爬取,目前这个是这个案例的一个遗憾。
在经历了两次部署失败后它就没有部署了,直接帮我导出了网页的代码,这里我就不重复发了,都在文末的链接里面,要网页的可以自己去看看效果。
对于这个测试,我的评价是是个初级数据分析师都能做,前端页面让claude写就行,数据分析师做的东西比这个还要深入。

任务二:热门大模型应用场景分析

第二个分析案例的测试则是让manus对当前的热门大模型做一个分析报告,包括应用场景、价格等方面。
这一次它有帮我做todo list,把要完成的任务分步规划好,并且公网部署也成功了:
你以为我要吹他了?没有。下面第一张图是它给出的模型价格,第二张图是openai官网发的最新的api的价格,也就是说manus的它的参考链接有问题,它不是参考大模型官方的网页,这样的结果就是时效性不强
claude的价格倒是是正确的,gemini我没有去验证,不好断言,不过有一点要说的是,现在claude 3.7应该才是比较流行的吧,3.7在写代码写文章的性能可比3.5高上不少。
这个对比方面也是中规中矩,拿来做ppt肯定不成问题,糊弄一下领导混几个演讲一下就过去,至于严谨的任务那不行。
东西写得还是有点笼统,至少一句话下来是完善不了的,只是有一个大致的框架,这点相信大家用过ai的都有所体会到。
所以要把报告完善还需要不断细化添加需求,这算是一个比较正常的样例测试,链接我也放在文末,有兴趣可以点进去看看,文件什么的都能直接查看。

53AI,企业落地大模型首选服务商

产品:场景落地咨询+大模型应用平台+行业解决方案

承诺:免费场景POC验证,效果验证后签署服务协议。零风险落地应用大模型,已交付160+中大型企业

联系我们

售前咨询
186 6662 7370
预约演示
185 8882 0121

微信扫码

添加专属顾问

回到顶部

加载中...

扫码咨询