我要投稿

安全与责任：重视伦理AI

发布日期：2024-06-12 20:33:09 浏览次数： 1927 作者：barry的异想世界

阿里巴巴为开源LLM领域带来了重大贡献，发布了Qwen2，这是其前代产品Qwen1.5的显著升级。[Qwen2][4]提供了一系列模型大小，扩展了语言支持，并且在性能上有了显著提升，使其成为各种AI应用的多功能工具。

模型扩展：满足各种需求

考虑到AI领域中并非一刀切，Qwen2提供了五个独特的模型尺寸，以适应不同的计算资源和应用需求：

这种多样性使开发者能够选择最佳平衡计算效率和特定用例所需功能的模型尺寸。但请记住，对于使用BF16精度的推断，最小GPU VRAM需求 是估计值。实际需求可能会因批次大小、序列长度和具体硬件配置等因素而有所不同。

全局查询注意力（GQA）： 借鉴Qwen1.5的成功，现在所有Qwen2模型都实现了GQA。这一架构选择加快了推理速度，减少了内存需求，提高了Qwen2的大规模部署可行性。
小型模型的嵌入绑定： Qwen2-0.5B和Qwen2-1.5B使用嵌入绑定优化参数使用，这对于小型LLM中大量参数分配给大型嵌入的情况尤为重要。
扩展的上下文长度： Qwen2突破了上下文长度的限制，Qwen2-7B-Instruct和Qwen2-72B-Instruct能够处理长达128K令牌的上下文。这一扩展的窗口使得处理和理解更复杂的语言任务中的大段文本成为可能。

打破语言障碍：真正多语言的LLM

Qwen2不再局限于常见的英语和中文，而是通过融入27种额外语言的数据，展现出全球化的视角，这些语言涵盖了多种语系：

这种广泛的语言覆盖，加上对语言混用问题的专门处理，使Qwen2成为多语言自然语言处理任务的强大工具。

Qwen2凭借其在各种基准测试中的出色性能，为其令人印象深刻的特性提供了有力支持。让我们来看看模型与一些最佳对手的性能对比，如在性能方面与Llama3–70B的对比，以及在效率方面与Phi-3-Mini的对比。

可以说，Qwen2–72B 在所有评估任务中都展现出对 Llama3–70B 的持续性能优势，彰显了其在英语理解、编程能力和数学推理上的强大实力。

尽管 Phi-3-Mini 通常超越 Qwen2-0.5B 和 Qwen2-1.5B，这可能归因于其更大的规模（3.8B 参数，而 Qwen2 分别为 0.5B 和 1.5B），但这些小型模型在其尺寸下仍展现出相当的能力。

Qwen2-72B在编程和数学能力上表现出显著提升，这在HumanEval、MBPP、GSM8K和MATH等基准测试中可见一斑。这彰显了Qwen2在处理复杂问题解决任务上的潜力。

Qwen2的扩展上下文长度，特别是在7B和72B模型中，为处理长格式文本处理开辟了可能性。实际上，在“针在 haystack 中”测试中，随机的事实或陈述（“针”）位于长上下文窗口（“haystack”）中，Qwen2展示了从大量文本中提取信息的良好能力。

Qwen2在安全和责任方面有着坚实的关注，Qwen2-72B-Instruct尤其表现出有害响应的低比例，这表明它与伦理AI原则保持一致。

Qwen2 采用了一种精细的许可策略，不同模型遵循不同的许可协议。

Apache 2.0 许可证： 大部分 Qwen2 模型，包括 Qwen2–0.5B、Qwen2–1.5B、Qwen2–7B 和 Qwen2–57B-A14B，都遵循宽松的 Apache 2.0 许可证发布。这个开源许可证赋予用户广泛的权利，可以使用、修改、分发，甚至商业化这些模型，促进了可访问性和协作开发生态系统的形成。
千问许可证： 最大的 Qwen2–72B 模型及其指令微调版本仍受原始千问许可证的约束。该许可证虽然允许使用，但对月活跃用户超过 1 亿的产品或服务的商业使用施加了限制。这种限制旨在平衡研究和开发的开放访问与阿里巴巴在控制其最先进模型的大规模部署方面的商业利益。

这种双许可策略带来了机遇和挑战。Apache 2.0 许可证鼓励对较小 Qwen2 模型的更广泛采用和创新，使开发者能够自由地将它们集成到各种应用中。然而，对于针对大量用户群的公司来说，千问许可证对最大模型 Qwen2–72B 所施加的限制可能会阻碍其广泛商业采用。