微信扫码
与创始人交个朋友
我要投稿
特别是去年各种大模型扎堆问世的时候,我可以说是每出一个都会怀着极大热情去体验使用。
但是到现在为止,那些让人眼花缭乱的大语言模型到底哪个好用,估计是萝卜青菜各有所爱。我敢肯定,对于每个使用AI产品的人,都会同时用着好几个AI产品。同一个问题,这家不好,就换另一家,主打一个有备无患。
毕竟每个产品都不可能面面俱到嘛。
但这么长时间过去了,想必大家对各种大模型的热情也都有了回落,比如像我这样的懒人,基本现在就用ChatGPT和Kimi,对其他的产品基本已经没啥兴趣。
一个是因为自己觉得这两个已经基本能够满足现在的大部分需求,另一个是因为不想再费力去自己体验测试另一个新的AI产品了。
现在,又有一个新的玩法了。
扣子LLM竞技场
这个就是扣子最近推出的模型对战。而且,我看了一下,只有国内版上线了,国际版还没有。
国外其实早就有一个类似的LLM竞技场LMSYS ChatBot Arena(https://arena.lmsys.org/)。
但是里边的大模型基本都是国外的,国内只有少数几个,比如阿里的Qwen,李开复的Yi-Chat。
大家还记得之前在网上泄露的gpt-2吗,后来被证实就是OpenAI前段时间发布的ChatGPT-4o。
这个泄漏源就是LMSYS ChatBot Arena。可以看出来大模型竞技对于评价一个大模型性能来说,有多么举足轻重了。
现在,国内也终于有了自己的竞技场,网址如下:
https://www.coze.cn/model/arena
当然了,既然是国内版本,目前只支持国内的一些模型,具体包括以下这些:
目前确实还不多,但我相信以后一定会慢慢变多的。
玩法介绍
我敢说好斗绝对是人类的本性之一,有时候只有同行的衬托才能体现出自己的优势。
下面来简单说一下,一共有三种模式可供选择。
前两种模式,都是和特定的Bot对话,Bot会随机选取两个大模型进行调用并生成答案。比如我选了一个名为影视分析的Bot,然后就可以开始随机提问,并进行投票。
这两种模式除了调用的模型本身,还可能受到Bot自己设置的工作流、知识库的影响,所以我觉得并不能100%体现一个模型的效果。
而第三种模式,纯模型对战。这个就更纯粹更直接了,没有任何其他因素的干扰。
我提了一个问题,没想到,我平时经常用的Kimi,竟然回答完全错误。
再来一次,试一下今年北京高考作文。
嗯...很有意思,果然,就像游戏一样,有了竞技性,才觉得更好玩。
往大了说,你每次投票,也在无形中影响着大模型开发者。
说不定哪天,你发现你平常使用的AI工具又给你带来了新的惊喜,而这里边可能就有你投出的一票。
毕竟,只有真实用户的反馈,才能鞭策开发者们不断的优化创新。
闲着无聊了,不妨来玩一玩。
END
53AI,企业落地应用大模型首选服务商
产品:大模型应用平台+智能体定制开发+落地咨询服务
承诺:先做场景POC验证,看到效果再签署服务协议。零风险落地应用大模型,已交付160+中大型企业
2024-05-28
2024-04-26
2024-08-13
2024-08-21
2024-07-09
2024-08-04
2024-06-13
2024-04-11
2024-07-18
2024-07-01