我要投稿

实战评测，谁是构建 agent 能力最强的国产大模型

发布日期：2024-06-07 11:51:45 浏览次数： 1913

从一个真实的需求《Good老师考考你》开始

上周儿子学校科技节，提前两周我和小朋友一起，策划了一个答题闯关AI游戏《Good老师考考你》，设计稿如下，我在coze上写好入门demo后，就把任务布置给小朋友完善细节。

小朋友完成策划稿

活动前一天，我突然发现，坏了！coze（cn）上试了所有模型都不能满足要求。

也许你们说豆包上不是很多答题类AI助手吗？是的，我们测试过很多个，他们都是个玩具。作为一款在公共场所亮相的agent，几个最基本的要求：

指定题库，以保证题目不超纲不乱说乱编；
每人答题3次，自动结束并判断获奖情况；
下个人挑战不重复出题要的吧。

大家对比着看看，在做各行各业agent时，这些都算是基础需求，要求不算高吧。没想到coze内置的通义、月之暗面、豆包和minimax竟然都搞不定。

所以今天专门集中对国内4家大厂、新4小龙，再加上gpt和gemini 10个大模型做了完整测评，摸摸底，方便以后agent大模型选型。

针对实际场景的评测，是最真实最有意义的

大模型综合能力评测是业界难题，高分低能的情况也听说很多了，在美国今年最火的是打擂台来排名。咱们本次测评非常简单目标清晰，只看任务完成情况，其他如用户体验等主观指标全部忽略。

测评按游戏推进过程共分了6个指标。前4个为基础指标，像是文科题，主要考察语言理解能力；后2项为附加题，重点考察逻辑和计算能力，是理科题。

隐藏答案，题库中题目和答案是成对的，出题时要隐藏答案；
自动推进游戏，游戏未结束前每次公布答案后还需要继续出题；
结束游戏并算分，包括正确计算答题次数（3次）、正确回答次数和所获奖项；
继续下一位选手，上一轮游戏结束后引导后续选手继续；
随机出题，即在题库中随机选择题目；
不重复出题，全局判断重复有点难，本次测试只要在连续两位选手中不重复即为成功；

测试环境和版本号：

模型	版本号	测试环境
字节豆包	豆包·Function call模型	coze.cn
腾讯混元	元器后台无版本	元器+元宝App
百度文心	百度文心4	文心智能体
阿里通义	通义千问-Max	coze.cn/通义App
智谱GLM	智谱智能体未显示版本	智谱智能体+轻言App
月之暗面	Moonshot（32K）	coze.cn
百川	百小应集成版本	百小应App
Minimax	MiniMax 6.5s	coze.cn
GPT4	GPT4o	coze.com
GPT3.5	GPT3.5 Turbo	coze.com
Gemini	Gemini Pro	coze.com

看一下测评结果数据吧

说明：本次所有测试是在6月4号完成的，当天发了视频号。

一四家大厂：阿里通义腾讯混元字节豆包百度文心

4家大厂全面垫底，不光比GPT3.5差很多，比国内新势力也差，比如文心和混元在出题时隐藏答案最基本要求都做不到。

二新四小龙：月之暗面百川 Minimax

新4小龙中，总体比大厂强，但距离完成所有任务还有差距。其中百川相比差一些。

三国外：gpt4o表现完美，无论任务能力还是用户体验都好；

GPT4o完美呈现，没有一句废话，没有一点差错； GPT 3.5T前4道文科题全部正确。甚至结束游戏统计得分完全正确，该项目可以说是本测评中难度最大也是正确率最低的一项，国内仅有智谱可以完成。

Google Gemini pro，全部任务完成，但细节比4o有差距。

四最后：新秀智谱脱颖而出，一枝独秀。

无须多说，直接看图。

五完整的测试结果

六复刻我的测试

1 可以在腾讯元宝、字节豆包、智谱轻言、GPTs中搜索“Good老师考考你”智能体，重现我的测试过程。

2 在飞书文档找到我的完整提示词，地址：

构建agent需要的能力与日常聊天写文章不一样

本次测评是典型的agent智能体任务，没有涉及到外挂知识等技术问题，主要使用AI的推理和逻辑能力，这和我们日常与AI聊天写文章不一样。

6个任务中：

124是文课题，只要能听懂语言，大概率能作对。
356明显是需要理科思维的，尤其任务3，除智谱外所有的国产模型都做不到，但是GPT3.5能答对。

我在群里专门问过，大家认为本次测试的任务，对于小学六年级学生完全可胜任，那么小学六年级学生可以搞定的任务，为什么国产大模型没有搞定呢？

我一直听到的说法，大模型就是985大学毕业的高材生，可能我们大多数人对大模型能力的期望过高了。

agent智能体到底有什么用，为什么要关注

智能体意味普通人的机会来了！

你是一名房产咨询专家，把你脑中的房产买进或者卖出的几十项指标建模，构建为工作流后接入微信，这样你就可以同时给成百的用户服务，搞钱速度是不是快了。

你是高科志愿填报专家，可以做一个智能体（实际上有一个AI张雪峰的项目已经发布了；

你是宝宝起名专家，可以做一个起名智能体（实际上我正在做，马上要发布了）；

你是上市公司财报解读专家

你是房产买卖咨询师

你是风水大师

你是企业政策申报人

这些都有机会，欢迎各行各业的专家大咖咨询交流，我一定全力支持做好服务，寻找机会一起做点事。

给所有agent从业者的建议，一定要关注工作流（workflow）

AI导师吴恩达说GPT3.5+工作流 > GPT4。

国内模型能力相比国外还有差距，大家选择模型的建议：

1 起步要先在最好的sota模型上测试验证OK；

2 引入工作流把大任务拆解为多个小任务，分步执行每次只处理一个简单逻辑，以时间换效果。

工作流非常非常重要，还是上面的例子，如果把整个游戏拆分为出题模块、游戏推进模块和兑奖模块三步，再在各个部分引入外部工具，比如随机出题可以引入random函数代码，计算游戏进度和获奖情况可以引入变量step和count变量。根据注意力原则，原来模型要同时关注6件事，分解后可能只需要关注1件事，那么模型的表现将大大提升，（有关工作流的介绍将在下篇文章详细讨论）。

最后

最近agent智能体概念爆火，字节coze/豆包开始规模化推广，腾讯发布元器/元宝智能体组合，百度文心智能体升级改名。做一个垂直行业agent接入微信赚快钱，已逐渐成为各行各业嗅觉灵敏“开发者”的共识。

一个优秀的agent，一要求大模型基础能力扎实；二强大易用的agent构建平台（下篇文章评测构建平台）。

（全文完）

后续写作计划

1 coze 元宝文心智能体 dify fastgpt 智能体构建平台评测
2 写给coze 产品经理及所有使用者的一份信
3 以“Good日程助手”为例，剖析如何实现99%可控的Agent智能体

古德白是谁

本名白新奋，花名“古德白”，随手AI创始人，连续创业者，AI布道师，东半球知名社群--#AGIA 大模型创业者社群主理人，主要活动在上海。如果哪里写得不对，来喷来聊，关注公众号聊天可获得微信号。

我的历史文章

总结openai gpt-4o发布会，屎上雕花？

学prompt+RAG这么久了，还是搞不出个凑合的 AI 应用

20位鲲鹏会会员17场沙龙36位嘉宾，点赞AGIA实战营2023年总结

好玩的ai智能对话实验，因为一个句号漏了马脚

大模型商业化，去一线解决问题，而不是在朋友圈和微信群战斗又又提app store时刻，实名反驳并分享我对LLM商业落地的理解

记录古德白的15年，从工程师到创业者

53AI，企业落地应用大模型首选服务商

产品：大模型应用平台+智能体定制开发+落地咨询服务

承诺：先做场景POC验证，看到效果再签署服务协议。零风险落地应用大模型，已交付160+中大型企业

160+中大型企业正在使用53AI

立即咨询预约演示

百度智能云邀53AI：共创AI新纪元，启航智能新时代

2024-05-27

钉钉恒星计划：53AI与百余位企业家及钉钉生态伙伴，共议“AI 浪潮下的新机遇”

2024-05-22

热点资讯

最强 GPT 免费使用！GPT4O 开启多模态新时代！

2024-05-14

全民AI时代：手把手教你用Ollama & AnythingLLM搭建AI知识库，无需编程，跟着做就行！

2024-04-26

【开源看AI】4.9K star！Khoj：完美融合本地文档和在线网页的AI第二大脑

2024-05-22

OLLama详细的 api 介绍不完全指南 python 直接调用 OLLama api 翻译助手演示

2024-04-12

GraphRAG+Ollama 本地部署，保姆教程，踩坑无数，闭坑大法

2024-07-18

万字长文解析：大模型需要怎样的硬件算力

2024-03-30

微调神器LLaMA-Factory官方保姆级教程来了，从环境搭建到模型训练评估全覆盖

2024-05-10

开源项目Composio：突破 AI 智能体开发的边界

2024-08-13

更改ollama模型存储路径

2024-04-25

全面对比dify、coze、streamlit、chainlit

2024-04-26

大家都在问

疯狂星期四Qwen2.5开源，通义成了最Open的AI?

2024-09-20

在长上下文LLM的时代，RAG是否仍然必要？

2024-09-20

【AI赋能】揭秘大模型微调：如何让机器智能跃升一个台阶？

2024-09-19

从案例分析到客户沟通：AI提示词如何优化律师工作流程？

2024-09-19

o1 能带我们走进 AGI 吗？

2024-09-19

如何微调（Fine-tuning）大语言模型？

2024-09-18

AI软件必须用GPU么？

2024-09-18

ChatGPT有三个快捷指令和三个模式，你知道吗？

2024-09-17

开箱即用的企业大模型应用平台

工作+AI

业务+AI

AIx业务

大模型咨询

大模型定制

相关资讯

160+中大型企业正在使用53AI

百度智能云邀53AI：共创AI新纪元，启航智能新时代

钉钉恒星计划：53AI与百余位企业家及钉钉生态伙伴，共议“AI 浪潮下的新机遇”

热点资讯

最强 GPT 免费使用！GPT4O 开启多模态新时代！

全民AI时代：手把手教你用Ollama & AnythingLLM搭建AI知识库，无需编程，跟着做就行！

【开源看AI】4.9K star！Khoj：完美融合本地文档和在线网页的AI第二大脑

OLLama详细的 api 介绍不完全指南 python 直接调用 OLLama api 翻译助手演示

GraphRAG+Ollama 本地部署，保姆教程，踩坑无数，闭坑大法

万字长文解析：大模型需要怎样的硬件算力

微调神器LLaMA-Factory官方保姆级教程来了，从环境搭建到模型训练评估全覆盖

开源项目Composio：突破 AI 智能体开发的边界

更改ollama模型存储路径

全面对比dify、coze、streamlit、chainlit

大家都在问

疯狂星期四Qwen2.5开源，通义成了最Open的AI?

在长上下文LLM的时代，RAG是否仍然必要？

【AI赋能】揭秘大模型微调：如何让机器智能跃升一个台阶？

从案例分析到客户沟通：AI提示词如何优化律师工作流程？

o1 能带我们走进 AGI 吗？

如何微调（Fine-tuning）大语言模型？

AI软件必须用GPU么？

ChatGPT有三个快捷指令和三个模式，你知道吗？

热门标签

开箱即用的企业大模型应用平台

工作+AI

业务+AI

AIx业务

大模型咨询

大模型定制

相关资讯

160+中大型企业正在使用53AI

百度智能云邀53AI：共创AI新纪元，启航智能新时代

钉钉恒星计划：53AI与百余位企业家及钉钉生态伙伴，共议“AI 浪潮下的新机遇”

热点资讯

最强 GPT 免费使用！GPT4O 开启多模态新时代！

全民AI时代：手把手教你用Ollama & AnythingLLM搭建AI知识库，无需编程，跟着做就行！

【开源看AI】4.9K star！Khoj：完美融合本地文档和在线网页的AI第二大脑

OLLama详细的 api 介绍 不完全指南 python 直接调用 OLLama api 翻译助手演示

GraphRAG+Ollama 本地部署，保姆教程，踩坑无数，闭坑大法

万字长文解析：大模型需要怎样的硬件算力

微调神器LLaMA-Factory官方保姆级教程来了，从环境搭建到模型训练评估全覆盖

开源项目Composio：突破 AI 智能体开发的边界

更改ollama模型存储路径

全面对比dify、coze、streamlit、chainlit

大家都在问

疯狂星期四Qwen2.5开源，通义成了最Open的AI?

在长上下文LLM的时代，RAG是否仍然必要？

【AI赋能】揭秘大模型微调：如何让机器智能跃升一个台阶？

从案例分析到客户沟通：AI提示词如何优化律师工作流程？

o1 能带我们走进 AGI 吗？

如何微调（Fine-tuning）大语言模型？

AI软件必须用GPU么？

ChatGPT有三个快捷指令和三个模式，你知道吗？

热门标签

OLLama详细的 api 介绍不完全指南 python 直接调用 OLLama api 翻译助手演示