AI知识库

53AI知识库

学习大模型的前沿技术与行业应用场景


千问1.5B模型跑赢70B大模型,72B 吊打GPT-4
发布日期:2024-08-11 04:33:31 浏览次数: 1940 来源:AGI Hunt


最近"小模型革命"确实火?

今天我们又迎来了一位新的小将,它可不简单,能在某些任务上吊打那些大块头的存在!

没错,就是这个看起来不起眼的1.5B模型

它在MATH基准测试中拿到了69.4分的好成绩,这个分数已经超越了不少70B的大模型了。

这是什么概念?就相当于班里的"小个子"同学突然在数学考试中一骑绝尘,把那些平时成绩不错的"大个子"们都甩在了身后!

更让人惊喜的是,这个小模型的硬件需求极其亲民

  • FP16精度下只需要3GB显存

  • INT8精度下只需要1.5GB显存

  • INT4精度下只需要750MB显存

这意味着什么呢?

就连那些"显卡穷"的小伙伴们也能玩得转了

再也不用羡慕别人家的3090Ti了,自家的"破显卡"也能跑出不错的效果。

这个模型是Qwen团队最新发布的Qwen2-Math系列中的一员。除了这个1.5B的"小不点",他们还发布了7B和72B的版本。

72B版本还在MATH基准上拿到了84分的高分,7B版本也有75分,这些成绩都超越了GPT-4o和Claude 3.5在某些数学任务上的表现。

更让人兴奋的是,1.5B和7B版本都是Apache 2.0开源协议,这意味着大家都可以自由使用和修改。至于72B版本,虽然使用了Qianwen协议,但也提供了基础版和指令微调版供大家选择。

有网友调侃道:

"这不就是AI界的'David VS Goliath'吗?小小的1.5B模型竟然能在某些任务上击败70B的巨人,简直是'以小搏大'的经典案例啊!"

这个案例再次证明,不是体型大就一定厉害。有时候,一个精心设计和训练的小模型,也能在特定任务上发挥出惊人的实力。

那么,Qwen团队是如何做到的呢?他们的秘诀包括:

  1. 在数学特定数据和合成数据上进行进一步预训练

  2. 使用RM+拒绝采样构建SFT数据

  3. 在SFT之后执行GRPO

  4. 对预训练和指令数据集进行精确匹配和13-gram去重的数据清洗

不得不说,Qwen团队这波操作真是既有创新又下足了功夫

最后,让人欣喜的是,这个模型已经集成到了?Transformers中,这无疑会让更多的开发者和研究者能够方便地使用和研究这个模型。

有网友激动地表示:

"这简直是给我们这些'GPU穷人'的福音啊!终于不用羡慕别人的'显卡豪宅'了,自己的'显卡蜗居'也能跑出不错的效果。Qwen团队,你们是我们的'AI罗宾汉'!"

这个1.5B模型的出现,为那些计算资源有限的个人开发者和小团队带来了新的希望。它证明了在AI的世界里,智慧和创新比单纯的规模更重要


53AI,企业落地应用大模型首选服务商

产品:大模型应用平台+智能体定制开发+落地咨询服务

承诺:先做场景POC验证,看到效果再签署服务协议。零风险落地应用大模型,已交付160+中大型企业

联系我们

售前咨询
186 6662 7370
预约演示
185 8882 0121

微信扫码

与创始人交个朋友

回到顶部

 
扫码咨询