微信扫码
与创始人交个朋友
我要投稿
前言
阿里巴巴再次为开源大语言模型(LLM)领域带来突破性的进展,发布了 Qwen2,这是其前作 Qwen1.5 的一次重大升级。Qwen2 携带了多种模型规模、更广泛的语言支持和显著的性能提升,将其打造成一个适合多样 AI 应用的强大工具。
了解到在 AI 领域,并非一种规模适用所有情况,Qwen2 推出五种不同规模的模型,旨在满足不同的计算资源和应用需求:
这种多样化让开发者能够根据具体用途,挑选最合适的模型规模,以平衡计算效率和所需能力。(但请注意,最小 GPU VRAM 要求仅为使用 BF16 精度推理的估算值。实际需求可能因批量大小、序列长度和具体硬件配置等因素而有所不同。)
全面启用群组查询注意力(GQA):借鉴了 Qwen1.5 的成功经验,GQA 现在被应用到所有 Qwen2 模型中。这种架构上的选择不仅加快了推理速度,还减少了内存需求,使 Qwen2 能够更广泛地部署。
对小型模型采用嵌入共享:Qwen2–0.5B 和 Qwen2–1.5B 采用嵌入共享技术来优化参数利用率,这在小型 LLM 中尤为重要,因为大量参数被分配给了大型的嵌入向量。
扩展上下文长度:Qwen2 拓宽了上下文长度的界限,Qwen2–7B-Instruct 和 Qwen2–72B-Instruct 能够处理长达 128K 词元的上下文。这种扩展使得处理和理解更大文本块成为可能,适合执行更复杂的语言任务。
Qwen2 超越了常见的英语和中文,纳入了来自 27 种其他语言的数据,覆盖了多个语言家族:
西欧:德语、法语、西班牙语、葡萄牙语、意大利语、荷兰语
东欧与中欧:俄语、捷克语、波兰语
中东:阿拉伯语、波斯语、希伯来语、土耳其语
东亚:日语、韩语
东南亚:越南语、泰语、印尼语、马来语、老挝语、缅甸语、宿务语、高棉语、他加禄语
南亚:印地语、孟加拉语、乌尔都语
这种广阔的语言支持,结合针对代码切换的专注努力,使 Qwen2 成为多语言自然语言处理任务的强大工具。
Qwen2 以在各种基准测试中的出色性能支撑其印象深刻的功能。让我们看看模型与一些顶尖对手的比较,如 Llama3–70B 的性能和 Phi-3-Mini 的效率。
可以说,Qwen2–72B 在所有评估的任务上都展现了比 Llama-3–70B 更一致的性能优势,突出了其在英语理解、编码能力和数学推理上的强大掌握。
虽然 Phi-3-Mini 总是胜过 Qwen2–0.5B 和 Qwen2–1.5B,可能是由于其更大的规模(与 0.5B 和 1.5B 相比有 3.8B 参数),但这些小型模型依然表现出了与其规模相称的能力。
编码与数学:提升 Qwen2 的分析能力
特别是 Qwen2–72B,在编码和数学能力上展示了显著的提升。这些增强在 HumanEval、MBPP、GSM8K 和 MATH 等基准测试中尤为明显,凸显了 Qwen2 在解决复杂问题任务中的潜力。
长上下文理解:开启新的可能性
Qwen2 的扩展上下文长度,特别是在 7B 和 72B 模型中,为处理长篇文本开辟了新的可能性。事实上,在“大海捞针”测试中,Qwen2 在从大量文本中提取信息方面表现出了良好的能力。
安全与责任:将伦理 AI 放在首位
Qwen2 强调安全和责任,特别是 Qwen2–72B-Instruct 在展现出低比例有害反应方面,证明了它与伦理 AI 原则的一致性。
授权问题:平衡开放与限制
Qwen2 采取了一种细腻的授权策略,不同模型采用不同的许可协议。
Apache 2.0 许可证:大部分 Qwen2 模型,如 Qwen2–0.5B、Qwen2–1.5B、Qwen2–7B 和 Qwen2–57B-A14B 都采用了宽松的 Apache 2.0 许可证。这种开源许可证为用户提供了广泛的自由,包括使用、修改、分发乃至商业化模型,促进了可访问性和协作开发生态系统的建立。
千问许可证:最大的模型,Qwen2–72B 及其指令调整版本仍遵循原始的千问许可证。这种许可证虽然授权使用,但对每月活跃用户超过 1 亿的产品或服务的商业使用施加了限制。这种限制旨在平衡研究和开发的开放访问与阿里巴巴对其最先进模型的大规模部署的商业利益的控制。
这种双重许可方法提出了机会和挑战。Apache 2.0 许可证鼓励对较小 Qwen2 模型的更广泛采用和创新,使开发人员能够自由地将它们集成到各种应用中。然而,对最大的 Qwen2–72B 模型施加的千问许可证的限制可能会阻碍其广泛的商业采用,特别是对于目标用户群体较大的公司。
53AI,企业落地应用大模型首选服务商
产品:大模型应用平台+智能体定制开发+落地咨询服务
承诺:先做场景POC验证,看到效果再签署服务协议。零风险落地应用大模型,已交付160+中大型企业
2025-01-02
谷歌CEO : 大模型的低垂果实已经被摘完了,如何挖掘大模型的剩余价值?
2025-01-02
“卷王”豆包上桌,压力给到了谁?
2025-01-02
从0到1构建RLHF系统——小红书大模型团队的探索与实践
2025-01-02
喜迎2025,AI Agent技术栈全解析!
2025-01-02
4o-mini只有8B,o1也才300B!微软论文意外曝光GPT核心机密
2025-01-01
年终长文15000字:学习的终结(The End of Learning)——从ChatGPT到未来
2024-12-31
2024年度总结:我们用Chat2API的最后一行代码开启AI Agent之年
2024-12-31
惊喜!Sam Altman确定OpenAI新产品,AGI、Agents、成人模式
2024-05-28
2024-08-13
2024-04-26
2024-08-21
2024-06-13
2024-07-09
2024-08-04
2024-09-23
2024-04-11
2024-07-18