微信扫码
与创始人交个朋友
我要投稿
导读
今天凌晨阿里云发布了自己新一代大模型Qwen 2,在Qwen 1.5 基础上向前迈了一大步,有0.5B、1.5B、7B、57B-A14B和72B 共5 个不同尺寸的模型,同时每个模型都有预训练版本和对应指令微调版本,72B 版本相比于Llama 3 70B 几乎全面超越,再次成为同级别新SOTA。
Qwen 2
核心看点:
表现:不管是7B还是70B 在各自级别上都成为了新SOTA,Qwen 2 72B 在英文、代码、数学和中文测试上几乎全面超远Llama 3 70B,尤其是代码、数学能力提升明显,中文表现很强,仅在MBPP、GSM8K 稍微逊色。
架构:依然是基于Transformer 架构的decoder 模型,其中57B 版本采用了MoE(混合专家)sparse结构,其余均为dense 模型。此外,在模型组件上用到SwiGLU 作为激活单元,注意力模块中QKV 线性单元加入了bias,attention 方式依然为GQA(Grouped Query Attention)。
tokenizer:改进了tokenizer,更好地支持多种自然语言和代码语言,除了中英文外,训练数据中还加入了27 种其它语言。
上下文:这一次利用YARN 在之前Qwen 1.5 32K 基础上把模型上下文长度扩展到128K,拉到当前同级别模型相同水准,之前分享中也提到过,今年开源模型上下文门槛将会来到128K。注意,在Qwen 2 系列中,57B-A14B 模型目前还只是64K,而0.5B和1.5B 则是32K,稍微有些差别。这个侧面也反映了之前Qwen 1.5 确实存在一定的规划问题,对于今年开源大模型多维度能力上估计不足,还好及时纠正过来了。
训练:尽管Qwen 2 70B 相比于Qwen 1.5 110B参数规模小不少,却凭借着更高质量的数据和更优秀的训练方法取得了更好表现,再次体现了数据质量得重要性和充分训练的必要性,这个同Llama 3 的训练过程和Meta 发布的大模型Scale Laws 论文也都能呼应上。Qwen 2 在后训练上做了不少工作,通过一些自动化对齐策略得到丰富的高质量数据,比如数学rejection sampling、代码执行反馈,此外还结合SFT和reward 模型进行在线DPO 训练,共同作用下提升模型整体表现。
多尺寸:尺寸覆盖范围广,从0.5B、1.5B、7B、57B-A14B和72B,对应不同的成本和能力的平衡,给用户也提供了不同的选择,需要把控好不同尺寸能力和成本的区分度,不然很容易陷入困难选择症,或者有些要面临被废弃的局面。
总结
Qwen 2 从benchmark 数据来看,跻身开源大模型第一梯队确实很不错,模型尺寸覆盖范围广,7B和72B 在同级都是新SOTA,上下文长度上也拉到了第一梯队,多语言支持上也明显增强,整体不错,还是体现出了自身水准,分裂的模型命名也不存在了。
53AI,企业落地应用大模型首选服务商
产品:大模型应用平台+智能体定制开发+落地咨询服务
承诺:先做场景POC验证,看到效果再签署服务协议。零风险落地应用大模型,已交付160+中大型企业
2024-12-23
2025年AI大模型的趋势与洞察
2024-12-23
阶跃星辰完成数亿美元 B 轮融资,发力「超级模型」+「超级应用」
2024-12-23
百川智能发布全链路领域增强金融大模型Baichuan4-Finance,金融能力领先GPT-4o近20%
2024-12-22
AI“落地”系列——Agent
2024-12-22
LAMBO:AI大模型赋能边缘智能
2024-12-22
如何从头建立一个通用AI智能体应用?
2024-12-22
不是炒作GenAI!终于有 BERT 的替代品了
2024-12-21
Anthropic最新:AI Agents 2024年度总结!
2024-05-28
2024-04-26
2024-08-13
2024-08-21
2024-07-09
2024-06-13
2024-08-04
2024-04-11
2024-07-18
2024-07-01