微信扫码
与创始人交个朋友
我要投稿
最近"小模型革命"确实火?
今天我们又迎来了一位新的小将,它可不简单,能在某些任务上吊打那些大块头的存在!
没错,就是这个看起来不起眼的1.5B模型!
它在MATH基准测试中拿到了69.4分的好成绩,这个分数已经超越了不少70B的大模型了。
这是什么概念?就相当于班里的"小个子"同学突然在数学考试中一骑绝尘,把那些平时成绩不错的"大个子"们都甩在了身后!
更让人惊喜的是,这个小模型的硬件需求极其亲民:
FP16精度下只需要3GB显存
INT8精度下只需要1.5GB显存
INT4精度下只需要750MB显存
这意味着什么呢?
就连那些"显卡穷"的小伙伴们也能玩得转了!
再也不用羡慕别人家的3090Ti了,自家的"破显卡"也能跑出不错的效果。
这个模型是Qwen团队最新发布的Qwen2-Math系列中的一员。除了这个1.5B的"小不点",他们还发布了7B和72B的版本。
72B版本还在MATH基准上拿到了84分的高分,7B版本也有75分,这些成绩都超越了GPT-4o和Claude 3.5在某些数学任务上的表现。
更让人兴奋的是,1.5B和7B版本都是Apache 2.0开源协议,这意味着大家都可以自由使用和修改。至于72B版本,虽然使用了Qianwen协议,但也提供了基础版和指令微调版供大家选择。
有网友调侃道:
"这不就是AI界的'David VS Goliath'吗?小小的1.5B模型竟然能在某些任务上击败70B的巨人,简直是'以小搏大'的经典案例啊!"
这个案例再次证明,不是体型大就一定厉害。有时候,一个精心设计和训练的小模型,也能在特定任务上发挥出惊人的实力。
那么,Qwen团队是如何做到的呢?他们的秘诀包括:
在数学特定数据和合成数据上进行进一步预训练
使用RM+拒绝采样构建SFT数据
在SFT之后执行GRPO
对预训练和指令数据集进行精确匹配和13-gram去重的数据清洗
不得不说,Qwen团队这波操作真是既有创新又下足了功夫!
最后,让人欣喜的是,这个模型已经集成到了?Transformers中,这无疑会让更多的开发者和研究者能够方便地使用和研究这个模型。
有网友激动地表示:
"这简直是给我们这些'GPU穷人'的福音啊!终于不用羡慕别人的'显卡豪宅'了,自己的'显卡蜗居'也能跑出不错的效果。Qwen团队,你们是我们的'AI罗宾汉'!"
这个1.5B模型的出现,为那些计算资源有限的个人开发者和小团队带来了新的希望。它证明了在AI的世界里,智慧和创新比单纯的规模更重要。
53AI,企业落地应用大模型首选服务商
产品:大模型应用平台+智能体定制开发+落地咨询服务
承诺:先做场景POC验证,看到效果再签署服务协议。零风险落地应用大模型,已交付160+中大型企业
2024-05-28
2024-04-26
2024-08-21
2024-04-11
2024-07-09
2024-08-13
2024-07-18
2024-10-25
2024-07-01
2024-06-17