我要投稿

Qwen2：阿里巴巴LLM能力进一步增强，支持多种语言

发布日期：2024-06-07 18:34:54 浏览次数： 2915 来源：二师兄talks

前言

阿里巴巴再次为开源大语言模型（LLM）领域带来突破性的进展，发布了 Qwen2，这是其前作 Qwen1.5 的一次重大升级。Qwen2 携带了多种模型规模、更广泛的语言支持和显著的性能提升，将其打造成一个适合多样 AI 应用的强大工具。

了解到在 AI 领域，并非一种规模适用所有情况，Qwen2 推出五种不同规模的模型，旨在满足不同的计算资源和应用需求：

这种多样化让开发者能够根据具体用途，挑选最合适的模型规模，以平衡计算效率和所需能力。（但请注意，最小 GPU VRAM 要求仅为使用 BF16 精度推理的估算值。实际需求可能因批量大小、序列长度和具体硬件配置等因素而有所不同。）

全面启用群组查询注意力（GQA）：借鉴了 Qwen1.5 的成功经验，GQA 现在被应用到所有 Qwen2 模型中。这种架构上的选择不仅加快了推理速度，还减少了内存需求，使 Qwen2 能够更广泛地部署。
对小型模型采用嵌入共享：Qwen2–0.5B 和 Qwen2–1.5B 采用嵌入共享技术来优化参数利用率，这在小型 LLM 中尤为重要，因为大量参数被分配给了大型的嵌入向量。
扩展上下文长度：Qwen2 拓宽了上下文长度的界限，Qwen2–7B-Instruct 和 Qwen2–72B-Instruct 能够处理长达 128K 词元的上下文。这种扩展使得处理和理解更大文本块成为可能，适合执行更复杂的语言任务。

Qwen2 超越了常见的英语和中文，纳入了来自 27 种其他语言的数据，覆盖了多个语言家族：

这种广阔的语言支持，结合针对代码切换的专注努力，使 Qwen2 成为多语言自然语言处理任务的强大工具。

Qwen2 以在各种基准测试中的出色性能支撑其印象深刻的功能。让我们看看模型与一些顶尖对手的比较，如 Llama3–70B 的性能和 Phi-3-Mini 的效率。

可以说，Qwen2–72B 在所有评估的任务上都展现了比 Llama-3–70B 更一致的性能优势，突出了其在英语理解、编码能力和数学推理上的强大掌握。

虽然 Phi-3-Mini 总是胜过 Qwen2–0.5B 和 Qwen2–1.5B，可能是由于其更大的规模（与 0.5B 和 1.5B 相比有 3.8B 参数），但这些小型模型依然表现出了与其规模相称的能力。

编码与数学：提升 Qwen2 的分析能力

特别是 Qwen2–72B，在编码和数学能力上展示了显著的提升。这些增强在 HumanEval、MBPP、GSM8K 和 MATH 等基准测试中尤为明显，凸显了 Qwen2 在解决复杂问题任务中的潜力。

长上下文理解：开启新的可能性

Qwen2 的扩展上下文长度，特别是在 7B 和 72B 模型中，为处理长篇文本开辟了新的可能性。事实上，在“大海捞针”测试中，Qwen2 在从大量文本中提取信息方面表现出了良好的能力。

安全与责任：将伦理 AI 放在首位

Qwen2 强调安全和责任，特别是 Qwen2–72B-Instruct 在展现出低比例有害反应方面，证明了它与伦理 AI 原则的一致性。

授权问题：平衡开放与限制

Qwen2 采取了一种细腻的授权策略，不同模型采用不同的许可协议。

Apache 2.0 许可证：大部分 Qwen2 模型，如 Qwen2–0.5B、Qwen2–1.5B、Qwen2–7B 和 Qwen2–57B-A14B 都采用了宽松的 Apache 2.0 许可证。这种开源许可证为用户提供了广泛的自由，包括使用、修改、分发乃至商业化模型，促进了可访问性和协作开发生态系统的建立。
千问许可证：最大的模型，Qwen2–72B 及其指令调整版本仍遵循原始的千问许可证。这种许可证虽然授权使用，但对每月活跃用户超过 1 亿的产品或服务的商业使用施加了限制。这种限制旨在平衡研究和开发的开放访问与阿里巴巴对其最先进模型的大规模部署的商业利益的控制。

这种双重许可方法提出了机会和挑战。Apache 2.0 许可证鼓励对较小 Qwen2 模型的更广泛采用和创新，使开发人员能够自由地将它们集成到各种应用中。然而，对最大的 Qwen2–72B 模型施加的千问许可证的限制可能会阻碍其广泛的商业采用，特别是对于目标用户群体较大的公司。