从一个真实的需求《Good老师考考你》开始
上周儿子学校科技节,提前两周我和小朋友一起,策划了一个答题闯关AI游戏《Good老师考考你》,设计稿如下,我在coze上写好入门demo后,就把任务布置给小朋友完善细节。
小朋友完成策划稿
活动前一天,我突然发现,坏了!coze(cn)上试了所有模型都不能满足要求。也许你们说豆包上不是很多答题类AI助手吗?是的,我们测试过很多个,他们都是个玩具。作为一款在公共场所亮相的agent,几个最基本的要求:
-
大家对比着看看,在做各行各业agent时,这些都算是基础需求,要求不算高吧。没想到coze内置的通义、月之暗面、豆包和minimax竟然都搞不定。所以今天专门集中对国内4家大厂、新4小龙,再加上gpt和gemini 10个大模型做了完整测评,摸摸底,方便以后agent大模型选型。大模型综合能力评测是业界难题,高分低能的情况也听说很多了,在美国今年最火的是打擂台来排名。咱们本次测评非常简单目标清晰,只看任务完成情况,其他如用户体验等主观指标全部忽略。测评按游戏推进过程共分了6个指标。前4个为基础指标,像是文科题,主要考察语言理解能力;后2项为附加题,重点考察逻辑和计算能力,是理科题。
- 隐藏答案,题库中题目和答案是成对的,出题时要隐藏答案;
- 自动推进游戏,游戏未结束前每次公布答案后还需要继续出题;
- 结束游戏并算分,包括正确计算答题次数(3次)、正确回答次数和所获奖项;
- 继续下一位选手,上一轮游戏结束后引导后续选手继续;
-
不重复出题,全局判断重复有点难,本次测试只要在连续两位选手中不重复即为成功;
模型 |
版本号 |
测试环境 |
字节豆包 |
豆包·Function call模型 |
coze.cn |
腾讯混元 |
元器后台无版本 |
元器+元宝App |
百度文心 |
百度文心4 |
文心智能体 |
阿里通义 |
通义千问-Max |
coze.cn/通义App |
智谱GLM |
智谱智能体未显示版本 |
智谱智能体+轻言App |
月之暗面 |
Moonshot(32K) |
coze.cn |
百川 |
百小应集成版本 |
百小应App |
Minimax |
MiniMax 6.5s |
coze.cn |
GPT4 |
GPT4o |
coze.com |
GPT3.5 |
GPT3.5 Turbo |
coze.com |
Gemini |
Gemini Pro |
coze.com |
说明:本次所有测试是在6月4号完成的,当天发了视频号。一 四家大厂:阿里通义 腾讯混元 字节豆包 百度文心4家大厂全面垫底,不光比GPT3.5差很多,比国内新势力也差,比如文心和混元在出题时隐藏答案最基本要求都做不到。
新4小龙中,总体比大厂强,但距离完成所有任务还有差距。其中百川相比差一些。
三 国外:gpt4o表现完美,无论任务能力还是用户体验都好;GPT4o完美呈现,没有一句废话,没有一点差错; GPT 3.5T前4道文科题全部正确。甚至结束游戏统计得分完全正确,该项目可以说是本测评中难度最大也是正确率最低的一项,国内仅有智谱可以完成。
Google Gemini pro,全部任务完成,但细节比4o有差距。
1 可以在腾讯元宝、字节豆包、智谱轻言、GPTs中搜索“Good老师考考你”智能体,重现我的测试过程。
本次测评是典型的agent智能体任务,没有涉及到外挂知识等技术问题,主要使用AI的推理和逻辑能力,这和我们日常与AI聊天写文章不一样。
- 356明显是需要理科思维的,尤其任务3,除智谱外所有的国产模型都做不到,但是GPT3.5能答对。
我在群里专门问过,大家认为本次测试的任务,对于小学六年级学生完全可胜任,那么小学六年级学生可以搞定的任务,为什么国产大模型没有搞定呢?我一直听到的说法,大模型就是985大学毕业的高材生,可能我们大多数人对大模型能力的期望过高了。你是一名房产咨询专家,把你脑中的房产买进或者卖出的几十项指标建模,构建为工作流后接入微信,这样你就可以同时给成百的用户服务,搞钱速度是不是快了。你是高科志愿填报专家,可以做一个智能体(实际上有一个AI张雪峰的项目已经发布了;你是宝宝起名专家,可以做一个起名智能体(实际上我正在做,马上要发布了);这些都有机会,欢迎各行各业的专家大咖咨询交流,我一定全力支持做好服务,寻找机会一起做点事。给所有agent从业者的建议,一定要关注工作流(workflow)AI导师吴恩达说GPT3.5+工作流 > GPT4。国内模型能力相比国外还有差距,大家选择模型的建议:2 引入工作流把大任务拆解为多个小任务,分步执行每次只处理一个简单逻辑,以时间换效果。工作流非常非常重要,还是上面的例子,如果把整个游戏拆分为出题模块、游戏推进模块和兑奖模块三步,再在各个部分引入外部工具,比如随机出题可以引入random函数代码,计算游戏进度和获奖情况可以引入变量step和count变量。根据注意力原则,原来模型要同时关注6件事,分解后可能只需要关注1件事,那么模型的表现将大大提升,(有关工作流的介绍将在下篇文章详细讨论)。
最近agent智能体概念爆火,字节coze/豆包开始规模化推广,腾讯发布元器/元宝智能体组合,百度文心智能体升级改名。做一个垂直行业agent接入微信赚快钱,已逐渐成为各行各业嗅觉灵敏“开发者”的共识。一个优秀的agent,一要求大模型基础能力扎实;二强大易用的agent构建平台(下篇文章评测构建平台)。
- 1 coze 元宝 文心智能体 dify fastgpt 智能体构建平台评测
- 3 以“Good日程助手”为例,剖析如何实现99%可控的Agent智能体
古德白是谁
本名白新奋,花名“古德白”,随手AI创始人,连续创业者,AI布道师,东半球知名社群--#AGIA 大模型创业者社群主理人,主要活动在上海。如果哪里写得不对,来喷来聊,关注公众号聊天可获得微信号。
我的历史文章
总结openai gpt-4o发布会,屎上雕花?
学prompt+RAG这么久了,还是搞不出个凑合的 AI 应用
20位鲲鹏会会员17场沙龙36位嘉宾,点赞AGIA实战营2023年总结
好玩的ai智能对话实验,因为一个句号漏了马脚
大模型商业化,去一线解决问题,而不是在朋友圈和微信群战斗又又提app store时刻,实名反驳并分享我对LLM商业落地的理解
记录古德白的15年,从工程师到创业者