微信扫码
与创始人交个朋友
我要投稿
导读
今天凌晨阿里云发布了自己新一代大模型Qwen 2,在Qwen 1.5 基础上向前迈了一大步,有0.5B、1.5B、7B、57B-A14B和72B 共5 个不同尺寸的模型,同时每个模型都有预训练版本和对应指令微调版本,72B 版本相比于Llama 3 70B 几乎全面超越,再次成为同级别新SOTA。
Qwen 2
核心看点:
表现:不管是7B还是70B 在各自级别上都成为了新SOTA,Qwen 2 72B 在英文、代码、数学和中文测试上几乎全面超远Llama 3 70B,尤其是代码、数学能力提升明显,中文表现很强,仅在MBPP、GSM8K 稍微逊色。
架构:依然是基于Transformer 架构的decoder 模型,其中57B 版本采用了MoE(混合专家)sparse结构,其余均为dense 模型。此外,在模型组件上用到SwiGLU 作为激活单元,注意力模块中QKV 线性单元加入了bias,attention 方式依然为GQA(Grouped Query Attention)。
tokenizer:改进了tokenizer,更好地支持多种自然语言和代码语言,除了中英文外,训练数据中还加入了27 种其它语言。
上下文:这一次利用YARN 在之前Qwen 1.5 32K 基础上把模型上下文长度扩展到128K,拉到当前同级别模型相同水准,之前分享中也提到过,今年开源模型上下文门槛将会来到128K。注意,在Qwen 2 系列中,57B-A14B 模型目前还只是64K,而0.5B和1.5B 则是32K,稍微有些差别。这个侧面也反映了之前Qwen 1.5 确实存在一定的规划问题,对于今年开源大模型多维度能力上估计不足,还好及时纠正过来了。
训练:尽管Qwen 2 70B 相比于Qwen 1.5 110B参数规模小不少,却凭借着更高质量的数据和更优秀的训练方法取得了更好表现,再次体现了数据质量得重要性和充分训练的必要性,这个同Llama 3 的训练过程和Meta 发布的大模型Scale Laws 论文也都能呼应上。Qwen 2 在后训练上做了不少工作,通过一些自动化对齐策略得到丰富的高质量数据,比如数学rejection sampling、代码执行反馈,此外还结合SFT和reward 模型进行在线DPO 训练,共同作用下提升模型整体表现。
多尺寸:尺寸覆盖范围广,从0.5B、1.5B、7B、57B-A14B和72B,对应不同的成本和能力的平衡,给用户也提供了不同的选择,需要把控好不同尺寸能力和成本的区分度,不然很容易陷入困难选择症,或者有些要面临被废弃的局面。
总结
Qwen 2 从benchmark 数据来看,跻身开源大模型第一梯队确实很不错,模型尺寸覆盖范围广,7B和72B 在同级都是新SOTA,上下文长度上也拉到了第一梯队,多语言支持上也明显增强,整体不错,还是体现出了自身水准,分裂的模型命名也不存在了。
53AI,企业落地大模型首选服务商
产品:场景落地咨询+大模型应用平台+行业解决方案
承诺:免费场景POC验证,效果验证后签署服务协议。零风险落地应用大模型,已交付160+中大型企业
2025-02-03
CCF的研讨会实录:解构DeepSeek-R1!
2025-02-03
一手实测:OpenAI Deep Research
2025-02-03
DeepSeek 成长史:追光者的技术远征 | 江湖录
2025-02-03
OpenAI反击DeepSeek!刚发布新模型Deep research,刷新最高记录
2025-02-02
什么是AI的“智能涌现”,以及为什么理解它对创业者、从业者、普通人都价值巨大
2025-02-02
单需求实测o3mini与deepseek R1
2025-02-02
白话科普 | DeepSeek的蒸馏技术到底是什么?90%的人都没搞懂,但西方却抓着不放!
2025-02-01
为什么DeepSeek要把思考过程展示出来?
2024-08-13
2024-05-28
2024-09-23
2024-06-13
2024-08-21
2024-04-26
2024-08-04
2024-07-09
2024-07-01
2024-07-18
2025-02-01
2025-02-01
2025-02-01
2025-02-01
2025-01-29
2025-01-24
2025-01-24
2025-01-24