实战评测,谁是构建 agent 能力最强的国产大模型
发布日期:2024-06-07 11:51:45
浏览次数: 2013
来源:白话AGI
从一个真实的需求《Good老师考考你》开始
上周儿子学校科技节,提前两周我和小朋友一起,策划了一个答题闯关AI游戏《Good老师考考你》,设计稿如下,我在coze上写好入门demo后,就把任务布置给小朋友完善细节。小朋友完成策划稿
活动前一天,我突然发现,坏了!coze(cn)上试了所有模型都不能满足要求。也许你们说豆包上不是很多答题类AI助手吗?是的,我们测试过很多个,他们都是个玩具。作为一款在公共场所亮相的agent,几个最基本的要求:
大家对比着看看,在做各行各业agent时,这些都算是基础需求,要求不算高吧。没想到coze内置的通义、月之暗面、豆包和minimax竟然都搞不定。所以今天专门集中对国内4家大厂、新4小龙,再加上gpt和gemini 10个大模型做了完整测评,摸摸底,方便以后agent大模型选型。大模型综合能力评测是业界难题,高分低能的情况也听说很多了,在美国今年最火的是打擂台来排名。咱们本次测评非常简单目标清晰,只看任务完成情况,其他如用户体验等主观指标全部忽略。测评按游戏推进过程共分了6个指标。前4个为基础指标,像是文科题,主要考察语言理解能力;后2项为附加题,重点考察逻辑和计算能力,是理科题。- 隐藏答案,题库中题目和答案是成对的,出题时要隐藏答案;
- 自动推进游戏,游戏未结束前每次公布答案后还需要继续出题;
- 结束游戏并算分,包括正确计算答题次数(3次)、正确回答次数和所获奖项;
- 继续下一位选手,上一轮游戏结束后引导后续选手继续;
- 不重复出题,全局判断重复有点难,本次测试只要在连续两位选手中不重复即为成功;
模型 | 版本号 | 测试环境 |
字节豆包 | 豆包·Function call模型 | coze.cn |
腾讯混元 | 元器后台无版本 | 元器+元宝App |
百度文心 | 百度文心4 | 文心智能体 |
阿里通义 | 通义千问-Max | coze.cn/通义App |
智谱GLM | 智谱智能体未显示版本 | 智谱智能体+轻言App |
月之暗面 | Moonshot(32K) | coze.cn |
百川 | 百小应集成版本 | 百小应App |
Minimax | MiniMax 6.5s | coze.cn |
GPT4 | GPT4o | coze.com |
GPT3.5 | GPT3.5 Turbo | coze.com |
Gemini | Gemini Pro | coze.com |
说明:本次所有测试是在6月4号完成的,当天发了视频号。一 四家大厂:阿里通义 腾讯混元 字节豆包 百度文心4家大厂全面垫底,不光比GPT3.5差很多,比国内新势力也差,比如文心和混元在出题时隐藏答案最基本要求都做不到。新4小龙中,总体比大厂强,但距离完成所有任务还有差距。其中百川相比差一些。三 国外:gpt4o表现完美,无论任务能力还是用户体验都好;GPT4o完美呈现,没有一句废话,没有一点差错; GPT 3.5T前4道文科题全部正确。甚至结束游戏统计得分完全正确,该项目可以说是本测评中难度最大也是正确率最低的一项,国内仅有智谱可以完成。Google Gemini pro,全部任务完成,但细节比4o有差距。1 可以在腾讯元宝、字节豆包、智谱轻言、GPTs中搜索“Good老师考考你”智能体,重现我的测试过程。
本次测评是典型的agent智能体任务,没有涉及到外挂知识等技术问题,主要使用AI的推理和逻辑能力,这和我们日常与AI聊天写文章不一样。- 356明显是需要理科思维的,尤其任务3,除智谱外所有的国产模型都做不到,但是GPT3.5能答对。
我在群里专门问过,大家认为本次测试的任务,对于小学六年级学生完全可胜任,那么小学六年级学生可以搞定的任务,为什么国产大模型没有搞定呢?我一直听到的说法,大模型就是985大学毕业的高材生,可能我们大多数人对大模型能力的期望过高了。你是一名房产咨询专家,把你脑中的房产买进或者卖出的几十项指标建模,构建为工作流后接入微信,这样你就可以同时给成百的用户服务,搞钱速度是不是快了。你是高科志愿填报专家,可以做一个智能体(实际上有一个AI张雪峰的项目已经发布了;你是宝宝起名专家,可以做一个起名智能体(实际上我正在做,马上要发布了);这些都有机会,欢迎各行各业的专家大咖咨询交流,我一定全力支持做好服务,寻找机会一起做点事。给所有agent从业者的建议,一定要关注工作流(workflow)AI导师吴恩达说GPT3.5+工作流 > GPT4。国内模型能力相比国外还有差距,大家选择模型的建议:2 引入工作流把大任务拆解为多个小任务,分步执行每次只处理一个简单逻辑,以时间换效果。工作流非常非常重要,还是上面的例子,如果把整个游戏拆分为出题模块、游戏推进模块和兑奖模块三步,再在各个部分引入外部工具,比如随机出题可以引入random函数代码,计算游戏进度和获奖情况可以引入变量step和count变量。根据注意力原则,原来模型要同时关注6件事,分解后可能只需要关注1件事,那么模型的表现将大大提升,(有关工作流的介绍将在下篇文章详细讨论)。最近agent智能体概念爆火,字节coze/豆包开始规模化推广,腾讯发布元器/元宝智能体组合,百度文心智能体升级改名。做一个垂直行业agent接入微信赚快钱,已逐渐成为各行各业嗅觉灵敏“开发者”的共识。一个优秀的agent,一要求大模型基础能力扎实;二强大易用的agent构建平台(下篇文章评测构建平台)。
产品:大模型应用平台+智能体定制开发+落地咨询服务
承诺:先做场景POC验证,看到效果再签署服务协议。零风险落地应用大模型,已交付160+中大型企业