AI知识库

53AI知识库

学习大模型的前沿技术与行业应用场景


面对百花齐放的大模型:如何选择最适合你的?
发布日期:2025-01-24 19:43:40 浏览次数: 1542 来源:一叶不扁舟
推荐语

推荐语:大模型竞争激烈,选择困难?本文教你从三方面评测,找到最适合的!
核心内容:
1. 大模型竞争现状与格局
2. 大模型评测的原因
3. 大模型评测的具体内容

杨芳贤
53A创始人/腾讯云(TVP)最具价值专家

ChatGPT火爆出圈后,2023年在国内掀起了“百模大战”,据说有近百家公司争先打造自身的大模型,都想成为中国的“OpenAI”。 

 

一时间,大模型战场硝烟四起,直到2024年结束后,局面才逐渐稳定下来,最后能留在赛场上的大模型公司所剩无几,毕竟这是一场巨大的“烧钱”游戏。 

 

大模型公司属于AI行业的上游,提供最基础的大模型能力,而处于中游的AI技术公司和AI应用公司,则借助大模型能力,发展自身的业务。 

 

事实上,能做大模型公司的毕竟是少数,专注于AI技术的公司也并不多,最多的还是处于中下游的AI应用公司,直接调用大模型能力。 

 

问题是:目前市面上仍有好多家大模型厂商,在选择大模型的时候,到底应该选择哪一家呢? 

 

这就要涉及大模型评测了,本篇文章将从三个方面简单介绍大模型评测的内容:为什么要评测?评测什么?如何评测? 

 

01 为什么要测评大模型?

 

没有最好的,只有最合适的。无论对于个人,还是公司,或者独立开发者,在使用大模型之前,肯定要做好模型选型,这和之前开发系统做技术选型是一样的道理。 

 

对于不同的模型,需要使用一定的衡量标准去评测它们在不同方面的能力表现。 

 

这样个人用户可以了解大模型的优劣,开发者可以掌握模型的边界属性,管理机构可以减少大模型带来的社会风险,产业界可以了解与目标模型相契合的应用交叉方法。 

 

那么该测评大模型哪些方面的能力呢? 

 

02 评测大模型什么能力?

 

大模型能力有几个核心指标,比如说,模型的准确性、模型的丰富度、模型的能力涌现等。 

 

针对核心指标,可以延伸出需要评测的具体能力,比如:模型的知识储备、推理能力、语言能力、长文本能力、多轮对话能力、情感能力、认知能力,以及价值观等。 

 

拿知识储备举例,你可以把大模型当成同时具备各种学科知识的大学生,测测它在这些学科上的表现,比如:经济学、教育学、法学、文学、管理学、理学、历史学、医学、军事学等。 

 

还可以把它当成具备某种技能的专业人士,比如代码能力、写作能力、绘画能力等。 

 

另外,如果是一家公司想要使用大模型能力来赋能自身业务发展,或者提高企业内部业务流程和员工工作的效率,那么可以针对性的准备测试集,对大模型进行评测。 

 

比如说一家汽车领域的公司,需要大模型知道汽车行业的通用知识,那么就可以准备好对应的题目,直接对大模型进行提问,看看该大模型在特定垂直领域的知识储备,不同大模型的表现肯定会有所差异。 

 

公司可以根据大模型的能力表现,来做出综合的模型选择决策。那么具体该如何评测大模型的能力呢? 

 

03 如何评测大模型的能力?

 

主流方式有三种:自动化客观评测、人机交互评测、基于大模型的大模型评测。 

 

自动化客观评测,是通过借助一定的评测平台,比如国内的OpenCompass,在这些平台上完成对各种大模型能力指标的对比评测。 

 

人机交互评测,是指由人工准备好测试数据集,然后手动对大模型的能力进行评测。 

 

基于大模型的大模型评测,是指可以使用能力较高的大模型去完成小模型的能力评测。 

 

具体评测的过程,可以准备选择题,也可以准备主观题,然后把题目丢给大模型/评测平台,通过大模型的回答,来去统计最后的得分。 

 

这个过程,很像心理学上的问卷评测,拿准备好的题目,分发给大量的被试,然后再收集问卷,对这些题目得分进行统计分析,最后得到被试在某个心理特征上的统计表现。 

 

尾声:

 

大模型能力的评测工作自从大模型诞生以来,就一直在不断地进行着,因为各大模型厂商公司,都希望自家的大模型能在榜单有亮眼的成绩,这样也能吸引更多的用户带来更多的订单。 

 

而作为大模型能力的使用者,在真正做模型选型决策时,不会仅仅考虑大模型能力这一个维度,还会综合考虑其它因素,比如说,合规性、安全性、部署成本、维护成本等一系列模型以外的相关因素。 

 

无论如何,大模型厂商之间的竞争越激烈,其实越利好AI行业下游的使用者,因为谁都希望用到又便宜又好用的大模型能力。 

 

从目前大模型的发展趋势来看,这一现象也正在逐渐成为现实,尤其是国内以字节跳动为代表的大模型厂商,已经把调用大模型token的价格,压到了白菜价。 

 

这更加说明了,未来大模型能力和AI的能力,会成为经济活动和日常生活中的基础设施,就像水、电、网一样,惠及千家万户和各行各业。 

 

AI已来,未来已来! 

 

那么你准备好了么? 

 

53AI,企业落地大模型首选服务商

产品:场景落地咨询+大模型应用平台+行业解决方案

承诺:免费场景POC验证,效果验证后签署服务协议。零风险落地应用大模型,已交付160+中大型企业

联系我们

售前咨询
186 6662 7370
预约演示
185 8882 0121

微信扫码

与创始人交个朋友

回到顶部

 
扫码咨询