AI知识库

53AI知识库

学习大模型的前沿技术与行业应用场景


实战评测,谁是构建 agent 能力最强的国产大模型
发布日期:2024-06-07 11:51:45 浏览次数: 1913


从一个真实的需求《Good老师考考你》开始

上周儿子学校科技节,提前两周我和小朋友一起,策划了一个答题闯关AI游戏《Good老师考考你》,设计稿如下,我在coze上写好入门demo后,就把任务布置给小朋友完善细节。

小朋友完成策划稿

活动前一天,我突然发现,坏了!coze(cn)上试了所有模型都不能满足要求。
也许你们说豆包上不是很多答题类AI助手吗?是的,我们测试过很多个,他们都是个玩具。作为一款在公共场所亮相的agent,几个最基本的要求:
  1. 指定题库,以保证题目不超纲不乱说乱编
  2. 每人答题3次,自动结束并判断获奖情况;
  3. 下个人挑战不重复出题要的吧。


大家对比着看看,在做各行各业agent时,这些都算是基础需求,要求不算高吧。没想到coze内置的通义、月之暗面、豆包和minimax竟然都搞不定。
所以今天专门集中对国内4家大厂、新4小龙,再加上gpt和gemini 10个大模型做了完整测评,摸摸底,方便以后agent大模型选型。

针对实际场景的评测,是最真实最有意义的
大模型综合能力评测是业界难题,高分低能的情况也听说很多了,在美国今年最火的是打擂台来排名。咱们本次测评非常简单目标清晰,只看任务完成情况,其他如用户体验等主观指标全部忽略。
测评按游戏推进过程共分了6个指标。前4个为基础指标,像是文科题,主要考察语言理解能力;后2项为附加题,重点考察逻辑和计算能力,是理科题。
  1. 隐藏答案,题库中题目和答案是成对的,出题时要隐藏答案;
  2. 自动推进游戏,游戏未结束前每次公布答案后还需要继续出题;
  3. 结束游戏并算分,包括正确计算答题次数(3次)、正确回答次数和所获奖项;
  4. 继续下一位选手,上一轮游戏结束后引导后续选手继续;
  5. 随机出题,即在题库中随机选择题目;
  6. 不重复出题,全局判断重复有点难,本次测试只要在连续两位选手中不重复即为成功;


测试环境和版本号:
模型 版本号 测试环境
字节豆包 豆包·Function call模型 coze.cn
腾讯混元 元器后台无版本 元器+元宝App
百度文心 百度文心4 文心智能体
阿里通义 通义千问-Max coze.cn/通义App
智谱GLM 智谱智能体未显示版本 智谱智能体+轻言App
月之暗面 Moonshot(32K) coze.cn
百川 百小应集成版本 百小应App
Minimax MiniMax 6.5s coze.cn
GPT4 GPT4o coze.com
GPT3.5 GPT3.5 Turbo coze.com
Gemini Gemini Pro coze.com

看一下测评结果数据吧
说明:本次所有测试是在6月4号完成的,当天发了视频号。
一 四家大厂:阿里通义 腾讯混元 字节豆包 百度文心
4家大厂全面垫底,不光比GPT3.5差很多,比国内新势力也差,比如文心和混元在出题时隐藏答案最基本要求都做不到。


二 新四小龙:月之暗面  百川  Minimax
新4小龙中,总体比大厂强,但距离完成所有任务还有差距。其中百川相比差一些。



三 国外:gpt4o表现完美,无论任务能力还是用户体验都好;
GPT4o完美呈现,没有一句废话,没有一点差错;  GPT 3.5T前4道文科题全部正确。甚至结束游戏统计得分完全正确,该项目可以说是本测评中难度最大也是正确率最低的一项,国内仅有智谱可以完成。


Google Gemini pro,全部任务完成,但细节比4o有差距。

四 最后:新秀智谱脱颖而出,一枝独秀。

无须多说,直接看图。

五 完整的测试结果


六 复刻我的测试
1 可以在腾讯元宝、字节豆包、智谱轻言、GPTs中搜索“Good老师考考你”智能体,重现我的测试过程。
2 在飞书文档找到我的完整提示词,地址:

构建agent需要的能力与日常聊天写文章不一样
本次测评是典型的agent智能体任务,没有涉及到外挂知识等技术问题,主要使用AI的推理和逻辑能力,这和我们日常与AI聊天写文章不一样。
6个任务中:
  • 124是文课题,只要能听懂语言,大概率能作对。
  • 356明显是需要理科思维的,尤其任务3,除智谱外所有的国产模型都做不到,但是GPT3.5能答对。
我在群里专门问过,大家认为本次测试的任务,对于小学六年级学生完全可胜任,那么小学六年级学生可以搞定的任务,为什么国产大模型没有搞定呢?
我一直听到的说法,大模型就是985大学毕业的高材生,可能我们大多数人对大模型能力的期望过高了。

agent智能体到底有什么用,为什么要关注
智能体意味普通人的机会来了!
你是一名房产咨询专家,把你脑中的房产买进或者卖出的几十项指标建模,构建为工作流后接入微信,这样你就可以同时给成百的用户服务,搞钱速度是不是快了。
你是高科志愿填报专家,可以做一个智能体(实际上有一个AI张雪峰的项目已经发布了;
你是宝宝起名专家,可以做一个起名智能体(实际上我正在做,马上要发布了);
你是上市公司财报解读专家
你是房产买卖咨询师
你是风水大师
你是企业政策申报人
这些都有机会,欢迎各行各业的专家大咖咨询交流,我一定全力支持做好服务,寻找机会一起做点事。

给所有agent从业者的建议,一定要关注工作流(workflow)
AI导师吴恩达说GPT3.5+工作流 > GPT4。
国内模型能力相比国外还有差距,大家选择模型的建议:
1 起步要先在最好的sota模型上测试验证OK;
2 引入工作流把大任务拆解为多个小任务,分步执行每次只处理一个简单逻辑,以时间换效果。
工作流非常非常重要,还是上面的例子,如果把整个游戏拆分为出题模块、游戏推进模块和兑奖模块三步,再在各个部分引入外部工具,比如随机出题可以引入random函数代码,计算游戏进度和获奖情况可以引入变量step和count变量。根据注意力原则,原来模型要同时关注6件事,分解后可能只需要关注1件事,那么模型的表现将大大提升,(有关工作流的介绍将在下篇文章详细讨论)。

最后
最近agent智能体概念爆火,字节coze/豆包开始规模化推广,腾讯发布元器/元宝智能体组合,百度文心智能体升级改名。做一个垂直行业agent接入微信赚快钱,已逐渐成为各行各业嗅觉灵敏“开发者”的共识。
一个优秀的agent,一要求大模型基础能力扎实;二强大易用的agent构建平台(下篇文章评测构建平台)。

(全文完)


后续写作计划
  • coze 元宝 文心智能体 dify fastgpt 智能体构建平台评测
  • 2 写给coze 产品经理及所有使用者的一份信
  • 3 以“Good日程助手”为例,剖析如何实现99%可控的Agent智能体

古德白是谁

本名白新奋,花名“古德白”,随手AI创始人,连续创业者,AI布道师,东半球知名社群--#AGIA 大模型创业者社群主理人,主要活动在上海。如果哪里写得不对,来喷来聊,关注公众号聊天可获得微信号。



我的历史文章

总结openai gpt-4o发布会,屎上雕花?

学prompt+RAG这么久了,还是搞不出个凑合的 AI 应用

20位鲲鹏会会员17场沙龙36位嘉宾,点赞AGIA实战营2023年总结

好玩的ai智能对话实验,因为一个句号漏了马脚

大模型商业化,去一线解决问题,而不是在朋友圈和微信群战斗又又提app store时刻,实名反驳并分享我对LLM商业落地的理解

记录古德白的15年,从工程师到创业者




53AI,企业落地应用大模型首选服务商

产品:大模型应用平台+智能体定制开发+落地咨询服务

承诺:先做场景POC验证,看到效果再签署服务协议。零风险落地应用大模型,已交付160+中大型企业

联系我们

售前咨询
186 6662 7370
预约演示
185 8882 0121

微信扫码

与创始人交个朋友

回到顶部

 
扫码咨询