AI知识库

53AI知识库

学习大模型的前沿技术与行业应用场景


通义千问开源320亿参数模型
发布日期:2024-04-20 12:13:27 浏览次数: 1920 来源:阿里通义千问




本文作者 | 通义千问团队

开源社区长期以来一直在寻求能够在性能、效率和内存占用之间达到理想平衡的模型。尽管出现了诸如Qwen1.5-72B和DBRX等SOTA模型,但依旧面临内存消耗巨大、推理速度缓慢、微调成本显著等问题。

因此,当前参数量约300亿的模型受到很多用户的青睐。顺应这一趋势,在去数月中,我们精心研发了Qwen1.5-32B-Base模型和Qwen1.5-32B-Chat模型。

Qwen1.5-32B-Base模型,旨在对标当前最先进的30B模型所设定的性能基准。同时,我们在对齐方面(尤其是RLHF)取得了一些进展,提升了Qwen1.5-32B-Chat模型的对话能力。相较于72B模型,Qwen1.5-32B系列模型的内存占用大幅减少,运行速度显著提升。


我们期望Qwen1.5-32B的发布能帮助用户为下游应用找到更优的解决方案,以应对14B模型在智能体场景下能力偏弱、72B模型推理成本过高等问题。

模型效果


Qwen1.5-32B是Qwen1.5语言模型系列的最新成员,除了GQA,其在模型架构上和Qwen1.5系列其他模型并无差异。GQA能让Qwen1.5-32B在提供模型服务时具有更高的推理效率潜力。

我们将Qwen1.5-32B与其他300亿左右参数模型以及参数量更大、当前最优(SOTA)模型进行了对比,评估其在基础能力、Chat模型、多语言方面的性能。

基础能力方面Qwen1.5-32B在MMLU、GSM8K、HumanEval以及BBH等多种任务上展现出颇具竞争力的表现。相较于72B参数模型,Qwen1.5-32B虽在性能上有轻微下降,但优于其他30B级别模型(Llama2-34B、Mixtral-8x7B)。


Chat模型方面,我们遵循Qwen1.5的评估方案,测试了Qwen1.5-32B-Chat模型在MT-Bench与Alpaca-Eval2.0上的表现。结果显示:Qwen1.5-32B-Chat模型得分超过8分,与Qwen1.5-72B-Chat之间的差距相对较小。


这表明,对于用户而言,如果需要更高效、更经济实惠的应用解决方案,32B模型是一个可行的选择。

多语言能力方面,我们选取了包括阿拉伯语、西班牙语、法语、葡萄牙语、德语、意大利语、俄语、日语、韩语、越南语、泰语和印尼语在内的12种语言,在考试、理解、数学及翻译等多个领域做了评测。结果显示Qwen1.5-32B具备出色的多语言能力,表现仅略逊于72B模型。


最后,我们还测试了Qwen1.5-32B-Chat模型在长文本评估任务“大海捞针”中的表现,令人欣喜的是,它在长达32K tokens的上下文中表现优秀


如何使用Qwen1.5-32B


Qwen1.5-32B在哪可以体验?以下是Qwen1.5-32B模型的重要链接:

  • 魔搭社区ModelScope: 
https://modelscope.cn/models/qwen/Qwen1.5-32B/summary
https://modelscope.cn/models/qwen/Qwen1.5-32B-Chat/summary

  • Hugging Face: 
https://huggingface.co/Qwen/Qwen1.5-32B
https://huggingface.co/spaces/Qwen/Qwen1.5-32B-Chat-demo




53AI,企业落地应用大模型首选服务商

产品:大模型应用平台+智能体定制开发+落地咨询服务

承诺:先做场景POC验证,看到效果再签署服务协议。零风险落地应用大模型,已交付160+中大型企业

联系我们

售前咨询
186 6662 7370
预约演示
185 8882 0121

微信扫码

与创始人交个朋友

回到顶部

 
扫码咨询