AI知识库

53AI知识库

学习大模型的前沿技术与行业应用场景


大模型玩腻了吗?来玩玩对战吧
发布日期:2024-06-14 14:58:38 浏览次数: 1768


自从ChatGPT 3.5问世以来,这一年半内,无数大语言模型如雨后春笋般涌现。


特别是去年各种大模型扎堆问世的时候,我可以说是每出一个都会怀着极大热情去体验使用。


但是到现在为止,那些让人眼花缭乱的大语言模型到底哪个好用,估计是萝卜青菜各有所爱。我敢肯定,对于每个使用AI产品的人,都会同时用着好几个AI产品。同一个问题,这家不好,就换另一家,主打一个有备无患


毕竟每个产品都不可能面面俱到嘛。


但这么长时间过去了,想必大家对各种大模型的热情也都有了回落,比如像我这样的懒人,基本现在就用ChatGPT和Kimi,对其他的产品基本已经没啥兴趣。


一个是因为自己觉得这两个已经基本能够满足现在的大部分需求,另一个是因为不想再费力去自己体验测试另一个新的AI产品了。


现在,又有一个新的玩法了。



扣子LLM竞技场


这个就是扣子最近推出的模型对战。而且,我看了一下,只有国内版上线了,国际版还没有。



国外其实早就有一个类似的LLM竞技场LMSYS ChatBot Arena(https://arena.lmsys.org/)。


但是里边的大模型基本都是国外的,国内只有少数几个,比如阿里的Qwen,李开复的Yi-Chat。



大家还记得之前在网上泄露的gpt-2吗,后来被证实就是OpenAI前段时间发布的ChatGPT-4o。


这个泄漏源就是LMSYS ChatBot Arena。可以看出来大模型竞技对于评价一个大模型性能来说,有多么举足轻重了。


现在,国内也终于有了自己的竞技场,网址如下:

https://www.coze.cn/model/arena


当然了,既然是国内版本,目前只支持国内的一些模型,具体包括下这些:


目前确实还不多,但我相信以后一定会慢慢变多的。



玩法介绍



我敢说好斗绝对是人类的本性之一,有时候只有同行的衬托才能体现出自己的优势。


下面来简单说一下,一共有三种模式可供选择。


前两种模式,都是和特定的Bot对话,Bot会随机选取两个大模型进行调用并生成答案。比如我选了一个名为影视分析的Bot,然后就可以开始随机提问,并进行投票。



这两种模式除了调用的模型本身,还可能受到Bot自己设置的工作流、知识库的影响,所以我觉得并不能100%体现一个模型的效果。


而第三种模式,纯模型对战这个就更纯粹更直接了,没有任何其他因素的干扰。


我提了一个问题,没想到,我平时经常用的Kimi,竟然回答完全错误



再来一次,试一下今年北京高考作文。



嗯...很有意思,果然,就像游戏一样,有了竞技性,才觉得更好玩


往大了说,你每次投票,也在无形中影响着大模型开发者。


说不定哪天,你发现你平常使用的AI工具又给你带来了新的惊喜,而这里边可能就有你投出的一票。


毕竟,只有真实用户的反馈,才能鞭策开发者们不断的优化创新。


闲着无聊了,不妨来玩一玩。



END





53AI,企业落地应用大模型首选服务商

产品:大模型应用平台+智能体定制开发+落地咨询服务

承诺:先做场景POC验证,看到效果再签署服务协议。零风险落地应用大模型,已交付160+中大型企业

联系我们

售前咨询
186 6662 7370
预约演示
185 8882 0121

微信扫码

与创始人交个朋友

回到顶部

 
扫码咨询