AI知识库

53AI知识库

学习大模型的前沿技术与行业应用场景


阿里云Qwen 2 登顶背后不可错过的几点总结
发布日期:2024-06-07 12:21:14 浏览次数: 1922


导读


今天凌晨阿里云发布了自己新一代大模型Qwen 2,在Qwen 1.5 基础上向前迈了一大步,有0.5B、1.5B、7B、57B-A14B和72B 共5 个不同尺寸的模型,同时每个模型都有预训练版本和对应指令微调版本,72B 版本相比于Llama 3 70B 几乎全面超越,再次成为同级别新SOTA。


Qwen 2


核心看点:

  1. 表现:不管是7B还是70B 在各自级别上都成为了新SOTA,Qwen 2 72B 在英文、代码、数学和中文测试上几乎全面超远Llama 3 70B,尤其是代码、数学能力提升明显,中文表现很强,仅在MBPP、GSM8K 稍微逊色。

  2. 架构:依然是基于Transformer 架构的decoder 模型,其中57B 版本采用了MoE(混合专家)sparse结构,其余均为dense 模型。此外,在模型组件上用到SwiGLU 作为激活单元,注意力模块中QKV 线性单元加入了bias,attention 方式依然为GQA(Grouped Query Attention)。

  3. tokenizer:改进了tokenizer,更好地支持多种自然语言和代码语言,除了中英文外,训练数据中还加入了27 种其它语言。

  4. 上下文:这一次利用YARN 在之前Qwen 1.5 32K 基础上把模型上下文长度扩展到128K,拉到当前同级别模型相同水准,之前分享中也提到过,今年开源模型上下文门槛将会来到128K。注意,在Qwen 2 系列中,57B-A14B 模型目前还只是64K,而0.5B和1.5B 则是32K,稍微有些差别。这个侧面也反映了之前Qwen 1.5 确实存在一定的规划问题,对于今年开源大模型多维度能力上估计不足,还好及时纠正过来了。

  5. 训练:尽管Qwen 2 70B 相比于Qwen 1.5 110B参数规模小不少,却凭借着更高质量的数据和更优秀的训练方法取得了更好表现,再次体现了数据质量得重要性和充分训练的必要性,这个同Llama 3 的训练过程和Meta 发布的大模型Scale Laws 论文也都能呼应上。Qwen 2 在后训练上做了不少工作,通过一些自动化对齐策略得到丰富的高质量数据,比如数学rejection sampling、代码执行反馈,此外还结合SFT和reward 模型进行在线DPO 训练,共同作用下提升模型整体表现。

  6. 多尺寸:尺寸覆盖范围广,从0.5B、1.5B、7B、57B-A14B和72B,对应不同的成本和能力的平衡,给用户也提供了不同的选择,需要把控好不同尺寸能力和成本的区分度,不然很容易陷入困难选择症,或者有些要面临被废弃的局面。


总结


Qwen 2 从benchmark 数据来看,跻身开源大模型第一梯队确实很不错,模型尺寸覆盖范围广,7B和72B 在同级都是新SOTA,上下文长度上也拉到了第一梯队,多语言支持上也明显增强,整体不错,还是体现出了自身水准,分裂的模型命名也不存在了。



引用:

  1. https://qwenlm.github.io/blog/qwen2/


相关阅读:

  1. 智谱AI 发布的GLM 4 到底有几把刷子?

  2. 揭秘两张RTX 3090卡微调70B 大模型的背后

  3. Meta 发布Llama 3:这7 点不容错过

  4. 关于大模型知识容量Scaling Laws 你要知道的几点



点击下方关注


对于文中的内容有任何问题,欢迎留言、私信交流。大家如果觉得内容有帮助的话,可以一键关注”和点“在看”,及时收看最新文章,分享给身边更多的朋友


53AI,企业落地应用大模型首选服务商

产品:大模型应用平台+智能体定制开发+落地咨询服务

承诺:先做场景POC验证,看到效果再签署服务协议。零风险落地应用大模型,已交付160+中大型企业

联系我们

售前咨询
186 6662 7370
预约演示
185 8882 0121

微信扫码

与创始人交个朋友

回到顶部

 
扫码咨询