我要投稿

实战评测，谁是构建 agent 能力最强的国产大模型

发布日期：2024-06-07 11:51:45 浏览次数： 2744 作者：白话AGI

从一个真实的需求《Good老师考考你》开始

上周儿子学校科技节，提前两周我和小朋友一起，策划了一个答题闯关AI游戏《Good老师考考你》，设计稿如下，我在coze上写好入门demo后，就把任务布置给小朋友完善细节。

小朋友完成策划稿

活动前一天，我突然发现，坏了！coze（cn）上试了所有模型都不能满足要求。

也许你们说豆包上不是很多答题类AI助手吗？是的，我们测试过很多个，他们都是个玩具。作为一款在公共场所亮相的agent，几个最基本的要求：

指定题库，以保证题目不超纲不乱说乱编；
每人答题3次，自动结束并判断获奖情况；
下个人挑战不重复出题要的吧。

大家对比着看看，在做各行各业agent时，这些都算是基础需求，要求不算高吧。没想到coze内置的通义、月之暗面、豆包和minimax竟然都搞不定。

所以今天专门集中对国内4家大厂、新4小龙，再加上gpt和gemini 10个大模型做了完整测评，摸摸底，方便以后agent大模型选型。

针对实际场景的评测，是最真实最有意义的

大模型综合能力评测是业界难题，高分低能的情况也听说很多了，在美国今年最火的是打擂台来排名。咱们本次测评非常简单目标清晰，只看任务完成情况，其他如用户体验等主观指标全部忽略。

测评按游戏推进过程共分了6个指标。前4个为基础指标，像是文科题，主要考察语言理解能力；后2项为附加题，重点考察逻辑和计算能力，是理科题。

隐藏答案，题库中题目和答案是成对的，出题时要隐藏答案；
自动推进游戏，游戏未结束前每次公布答案后还需要继续出题；
结束游戏并算分，包括正确计算答题次数（3次）、正确回答次数和所获奖项；
继续下一位选手，上一轮游戏结束后引导后续选手继续；
随机出题，即在题库中随机选择题目；
不重复出题，全局判断重复有点难，本次测试只要在连续两位选手中不重复即为成功；

测试环境和版本号：

模型	版本号	测试环境
字节豆包	豆包·Function call模型	coze.cn
腾讯混元	元器后台无版本	元器+元宝App
百度文心	百度文心4	文心智能体
阿里通义	通义千问-Max	coze.cn/通义App
智谱GLM	智谱智能体未显示版本	智谱智能体+轻言App
月之暗面	Moonshot（32K）	coze.cn
百川	百小应集成版本	百小应App
Minimax	MiniMax 6.5s	coze.cn
GPT4	GPT4o	coze.com
GPT3.5	GPT3.5 Turbo	coze.com
Gemini	Gemini Pro	coze.com

看一下测评结果数据吧

说明：本次所有测试是在6月4号完成的，当天发了视频号。

一四家大厂：阿里通义腾讯混元字节豆包百度文心

4家大厂全面垫底，不光比GPT3.5差很多，比国内新势力也差，比如文心和混元在出题时隐藏答案最基本要求都做不到。

二新四小龙：月之暗面百川 Minimax

新4小龙中，总体比大厂强，但距离完成所有任务还有差距。其中百川相比差一些。

三国外：gpt4o表现完美，无论任务能力还是用户体验都好；

GPT4o完美呈现，没有一句废话，没有一点差错； GPT 3.5T前4道文科题全部正确。甚至结束游戏统计得分完全正确，该项目可以说是本测评中难度最大也是正确率最低的一项，国内仅有智谱可以完成。

Google Gemini pro，全部任务完成，但细节比4o有差距。

四最后：新秀智谱脱颖而出，一枝独秀。

无须多说，直接看图。

五完整的测试结果

六复刻我的测试

1 可以在腾讯元宝、字节豆包、智谱轻言、GPTs中搜索“Good老师考考你”智能体，重现我的测试过程。

2 在飞书文档找到我的完整提示词，地址：

构建agent需要的能力与日常聊天写文章不一样

本次测评是典型的agent智能体任务，没有涉及到外挂知识等技术问题，主要使用AI的推理和逻辑能力，这和我们日常与AI聊天写文章不一样。

6个任务中：

124是文课题，只要能听懂语言，大概率能作对。
356明显是需要理科思维的，尤其任务3，除智谱外所有的国产模型都做不到，但是GPT3.5能答对。

我在群里专门问过，大家认为本次测试的任务，对于小学六年级学生完全可胜任，那么小学六年级学生可以搞定的任务，为什么国产大模型没有搞定呢？

我一直听到的说法，大模型就是985大学毕业的高材生，可能我们大多数人对大模型能力的期望过高了。

agent智能体到底有什么用，为什么要关注

智能体意味普通人的机会来了！

你是一名房产咨询专家，把你脑中的房产买进或者卖出的几十项指标建模，构建为工作流后接入微信，这样你就可以同时给成百的用户服务，搞钱速度是不是快了。

你是高科志愿填报专家，可以做一个智能体（实际上有一个AI张雪峰的项目已经发布了；

你是宝宝起名专家，可以做一个起名智能体（实际上我正在做，马上要发布了）；

你是上市公司财报解读专家

你是房产买卖咨询师

你是风水大师

你是企业政策申报人

这些都有机会，欢迎各行各业的专家大咖咨询交流，我一定全力支持做好服务，寻找机会一起做点事。

给所有agent从业者的建议，一定要关注工作流（workflow）

AI导师吴恩达说GPT3.5+工作流 > GPT4。

国内模型能力相比国外还有差距，大家选择模型的建议：

1 起步要先在最好的sota模型上测试验证OK；

2 引入工作流把大任务拆解为多个小任务，分步执行每次只处理一个简单逻辑，以时间换效果。

工作流非常非常重要，还是上面的例子，如果把整个游戏拆分为出题模块、游戏推进模块和兑奖模块三步，再在各个部分引入外部工具，比如随机出题可以引入random函数代码，计算游戏进度和获奖情况可以引入变量step和count变量。根据注意力原则，原来模型要同时关注6件事，分解后可能只需要关注1件事，那么模型的表现将大大提升，（有关工作流的介绍将在下篇文章详细讨论）。