我要投稿

面对百花齐放的大模型：如何选择最适合你的？

发布日期：2025-01-24 19:43:40 浏览次数： 2009 作者：一叶不扁舟

ChatGPT火爆出圈后，2023年在国内掀起了“百模大战”，据说有近百家公司争先打造自身的大模型，都想成为中国的“OpenAI”。　

一时间，大模型战场硝烟四起，直到2024年结束后，局面才逐渐稳定下来，最后能留在赛场上的大模型公司所剩无几，毕竟这是一场巨大的“烧钱”游戏。　

大模型公司属于AI行业的上游，提供最基础的大模型能力，而处于中游的AI技术公司和AI应用公司，则借助大模型能力，发展自身的业务。　

事实上，能做大模型公司的毕竟是少数，专注于AI技术的公司也并不多，最多的还是处于中下游的AI应用公司，直接调用大模型能力。　

问题是：目前市面上仍有好多家大模型厂商，在选择大模型的时候，到底应该选择哪一家呢？　

这就要涉及大模型评测了，本篇文章将从三个方面简单介绍大模型评测的内容：为什么要评测？评测什么？如何评测？　

01 为什么要测评大模型？

没有最好的，只有最合适的。无论对于个人，还是公司，或者独立开发者，在使用大模型之前，肯定要做好模型选型，这和之前开发系统做技术选型是一样的道理。　

对于不同的模型，需要使用一定的衡量标准去评测它们在不同方面的能力表现。　

这样个人用户可以了解大模型的优劣，开发者可以掌握模型的边界属性，管理机构可以减少大模型带来的社会风险，产业界可以了解与目标模型相契合的应用交叉方法。　

那么该测评大模型哪些方面的能力呢？　

02 评测大模型什么能力？

大模型能力有几个核心指标，比如说，模型的准确性、模型的丰富度、模型的能力涌现等。　

针对核心指标，可以延伸出需要评测的具体能力，比如：模型的知识储备、推理能力、语言能力、长文本能力、多轮对话能力、情感能力、认知能力，以及价值观等。　

拿知识储备举例，你可以把大模型当成同时具备各种学科知识的大学生，测测它在这些学科上的表现，比如：经济学、教育学、法学、文学、管理学、理学、历史学、医学、军事学等。　

还可以把它当成具备某种技能的专业人士，比如代码能力、写作能力、绘画能力等。　

另外，如果是一家公司想要使用大模型能力来赋能自身业务发展，或者提高企业内部业务流程和员工工作的效率，那么可以针对性的准备测试集，对大模型进行评测。　

比如说一家汽车领域的公司，需要大模型知道汽车行业的通用知识，那么就可以准备好对应的题目，直接对大模型进行提问，看看该大模型在特定垂直领域的知识储备，不同大模型的表现肯定会有所差异。　

公司可以根据大模型的能力表现，来做出综合的模型选择决策。那么具体该如何评测大模型的能力呢？　

03 如何评测大模型的能力？

主流方式有三种：自动化客观评测、人机交互评测、基于大模型的大模型评测。　

自动化客观评测，是通过借助一定的评测平台，比如国内的OpenCompass，在这些平台上完成对各种大模型能力指标的对比评测。　

人机交互评测，是指由人工准备好测试数据集，然后手动对大模型的能力进行评测。　

基于大模型的大模型评测，是指可以使用能力较高的大模型去完成小模型的能力评测。　

具体评测的过程，可以准备选择题，也可以准备主观题，然后把题目丢给大模型/评测平台，通过大模型的回答，来去统计最后的得分。　

这个过程，很像心理学上的问卷评测，拿准备好的题目，分发给大量的被试，然后再收集问卷，对这些题目得分进行统计分析，最后得到被试在某个心理特征上的统计表现。　

尾声：

大模型能力的评测工作自从大模型诞生以来，就一直在不断地进行着，因为各大模型厂商公司，都希望自家的大模型能在榜单有亮眼的成绩，这样也能吸引更多的用户带来更多的订单。　

而作为大模型能力的使用者，在真正做模型选型决策时，不会仅仅考虑大模型能力这一个维度，还会综合考虑其它因素，比如说，合规性、安全性、部署成本、维护成本等一系列模型以外的相关因素。　

无论如何，大模型厂商之间的竞争越激烈，其实越利好AI行业下游的使用者，因为谁都希望用到又便宜又好用的大模型能力。　

从目前大模型的发展趋势来看，这一现象也正在逐渐成为现实，尤其是国内以字节跳动为代表的大模型厂商，已经把调用大模型token的价格，压到了白菜价。　

这更加说明了，未来大模型能力和AI的能力，会成为经济活动和日常生活中的基础设施，就像水、电、网一样，惠及千家万户和各行各业。　

AI已来，未来已来！　

那么你准备好了么？　

53AI，企业落地大模型首选服务商

产品：场景落地咨询+大模型应用平台+行业解决方案

承诺：免费场景POC验证，效果验证后签署服务协议。零风险落地应用大模型，已交付160+中大型企业

相关资讯

2025-04-29

一文说清：什么是算法备案、大模型备案、大模型登记 2.0

2025-04-29

MCP：AI时代的“万能插座”，大厂竞逐的焦点

2025-04-29

打起来了！MCP VS A2A，谁才是Agent的未来事实标准？

2025-04-29

Google 的 A2A 与 MCP 该如何选择？还是两种都用？

2025-04-29

一站式AI应用开发平台 Firebase Studio

2025-04-29

精华好文！用LLM评估LLM，真的靠谱吗？技术上如何实现？

2025-04-29

分而治之：全面解析分布式分离 Inference 系统

2025-04-29

AI 落地难？MCP 或许就是那把「关键钥匙」！

了解更多

160+中大型企业正在使用53AI

立即咨询预约演示

把握AI发展的机遇，共同探索、共同进步

2025-01-22

如何打造基于GenAI的员工服务机器人

2025-01-22

热点资讯

本地部署大模型？看这篇就够了，Ollama 部署和实战

2024-08-13

16个具有“联网搜索”功能的AI：总有一个适合你！

2024-06-13

Cursor 一个真正让程序员产生危机感的 AI 编程工具

2024-08-21

OpenAI o1与GPT4o的对比分析

2024-09-23

大模型｜“上下文长度”和“上下文窗口”不再傻傻分不清楚！

2024-07-31

一文带你了解大模型——智能体（Agent）

2024-05-28

50+个AI大模型在不同领域的应用案例

2024-08-04

全面对比dify、coze、streamlit、chainlit

2024-04-26

【深度】AI搜索产品深度分析-搜索原理和商业模式分析

2024-07-09

一文读懂OpenAI新发布o1系列大模型

2024-09-17

大家都在问

打起来了！MCP VS A2A，谁才是Agent的未来事实标准？

2025-04-29

Google 的 A2A 与 MCP 该如何选择？还是两种都用？

2025-04-29

精华好文！用LLM评估LLM，真的靠谱吗？技术上如何实现？

2025-04-29

大模型是否有必要本地化部署？

2025-04-28

给 AI 小白的说明书：什么是 Manus？AI Agent为什么重要？

2025-04-28

MCP爆火背后：AI Agent的生产力时代来了吗？

2025-04-28

从MCP到超级Agent：这场AI生产力革命将淘汰谁？

2025-04-28

一文了解：为什么大模型 Agent框架（A2A）采用 JSON-RPC 2.0？

2025-04-28

热门标签

内容创作大模型技术个人提效 langchain llamaindex 多模态技术 RAG技术智能客服知识图谱模型微调 RAGFlow coze Dify Fastgpt Bisheng Qanything AI+汽车 AI+金融 AI+工业 AI+培训 AI+SaaS 提示词框架提示词技巧 AI+电商 AI面试数字员工 ChatBI 知识管理开源大模型智能营销智能硬件智能化改造 AI+医疗 MaxKB