我要投稿

阿里巴巴发布Qwen2.5，对标GPT o1？

发布日期：2024-09-22 08:04:46 浏览次数： 3058 作者：Halo咯咯

01。

概述

自Qwen2发布三个月以来，开发者们基于这一语言模型构建了多种新模型，并给予了宝贵的反馈。在这一过程中，团队专注于创造更智能、更有知识的语言模型。最近，Qwen家族迎来了最新成员——Qwen2.5。这被视为历史上最大规模的开源发布！

02。

最新发布

本次发布包括Qwen2.5语言模型，以及为编程（Qwen2.5-Coder）和数学（Qwen2.5-Math）特别设计的专业模型。所有开源模型均为密集型、仅解码器的语言模型，提供多种规模，包括：

Qwen2.5：0.5B、1.5B、3B、7B、14B、32B和72B
Qwen2.5-Coder：即将推出1.5B、7B和32B
Qwen2.5-Math：1.5B、7B和72B

除了3B和72B版本，所有开源模型均采用Apache 2.0许可。可以在相应的Hugging Face存储库中找到许可文件。此外，还通过Model Studio提供旗舰语言模型Qwen-Plus和Qwen-Turbo的API，鼓励开发者们积极探索。与此同时，Qwen2-VL-72B的开源发布也带来了性能的显著提升。

03。

特性

Qwen2.5语言模型在预训练中利用了最新的大规模数据集，涵盖高达18万亿个标记。与Qwen2相比，Qwen2.5获得了更多的知识（MMLU：85+），在编程（HumanEval 85+）和数学（MATH 80+）方面的能力得到了大幅提升。此外，新模型在遵循指令、生成长文本（超过8K标记）、理解结构化数据（如表格）和生成结构化输出（特别是JSON格式）方面取得了显著改进。Qwen2.5模型对系统提示的多样性具有更强的韧性，增强了聊天机器人的角色扮演能力和条件设置。

与Qwen2相同，Qwen2.5语言模型支持高达128K标记的上下文长度，并能生成高达8K标记的文本，同时支持超过29种语言，包括中文、英文、法文、西班牙文、葡萄牙文、德文、意大利文、俄文、日文、韩文、越南文、泰文、阿拉伯文等。

专业语言模型Qwen2.5-Coder（编程）和Qwen2.5-Math（数学）在与前代CodeQwen1.5和Qwen2-Math相比，经历了重大的增强。具体而言，Qwen2.5-Coder在与代码相关的5.5万亿个标记数据上进行了训练，使得即使是较小的特定编程模型也能在编程评估基准上与更大的语言模型竞争。同时，Qwen2.5-Math则融合了多种推理方法，包括链式思考（CoT）、程序化思考（PoT）和工具集成推理（TIR）。

04。

Qwen2.5规格与性能

为了展示Qwen2.5的能力，将最大开源模型Qwen2.5-72B与Llama-3.1-70B和Mistral-Large-V2等领先的开源模型进行了基准测试。从各种基准测试中呈现出的指令调整版本的全面结果，评估了模型的能力和人类偏好。

Qwen2.5-72B指令性能

不仅仅是在指令调整的语言模型方面，旗舰开源模型Qwen2.5-72B在面对像Llama-3-405B这样更大的模型时，依然能达到顶级性能。

Qwen2.5-72B基础模型性能

最新的基于API的模型Qwen-Plus与包括GPT4-o、Claude-3.5-Sonnet、Llama-3.1-405B和DeepSeek-V2.5在内的领先专有和开源模型进行了基准测试。这一比较展示了Qwen-Plus在大型语言模型领域的竞争力，尽管在某些方面仍不如GPT4-o和Claude-3.5-Sonnet，但在其他方面展现出了显著优势。

Qwen-Plus指令性能

Qwen2.5的一个重要更新是重新引入了14B和32B模型，Qwen2.5-14B和Qwen2.5-32B。这些模型在多样化任务中的表现超越了相似或更大尺寸的基线模型，如Phi-3.5-MoE-Instruct和Gemma2-27B-IT。它们在模型大小和能力之间实现了最佳平衡，提供了与某些更大模型相匹配或超越的性能。此外，基于API的模型Qwen-Turbo在成本效益和服务速度上提供了竞争力。

Qwen2.5-32B指令性能

最近，小语言模型（SLMs）的趋势显著转变。尽管SLMs历来落后于大型对应模型（LLMs），但性能差距正在迅速缩小。值得注意的是，即使是只有30亿参数的模型现在也能提供极具竞争力的结果。数据显示，在MMLU中得分超过65的新模型数量逐渐增多，强调了语言模型中知识密度的加速增长。Qwen2.5-3B作为一个典型例子，凭借约30亿参数实现了令人印象深刻的性能，展示了其与前代相比的效率和能力。

05。

Qwen2.5的提升

除了在基准评估中的显著增强外，Qwen团队还完善了后训练方法。关键更新包括支持高达8K标记的长文本生成、显著提高对结构化数据的理解、更可靠的结构化输出生成（特别是JSON格式），以及在多样化系统提示中的增强性能，帮助实现更有效的角色扮演。

Qwen2.5-Coder

自CodeQwen1.5推出以来，吸引了众多用户依赖此模型进行调试、回答编程相关问题和提供代码建议。最新的Qwen2.5-Coder专为编程应用设计，在多种编程语言和任务中的表现超越了众多更大的语言模型，展现了其卓越的编程能力。

Qwen2.5-Math

在数学特定语言模型方面，Qwen2-Math已在上个月发布，而Qwen2.5-Math在更大规模的数学相关数据上进行了预训练，包括由Qwen2-Math生成的合成数据。此次发布扩展了对中文的支持，同时通过赋予其执行CoT、PoT和TIR的能力，加强了推理能力。Qwen2.5-Math-72B-Instruct的总体性能超越了Qwen2-Math-72B-Instruct和GPT4-o，甚至非常小的专家模型Qwen2.5-Math-1.5B-Instruct也能与大型语言模型竞争。

# 快速开始

from transformers import AutoModelForCausalLM, AutoTokenizer

model_name = "Qwen/Qwen2.5-7B-Instruct"

model = AutoModelForCausalLM.from_pretrained(
    model_name,
    torch_dtype="auto",
    device_map="auto"
)
tokenizer = AutoTokenizer.from_pretrained(model_name)

prompt = "Give me a short introduction to large language model."
messages = [
    {"role": "system", "content": "You are Qwen, created by Alibaba Cloud. You are a helpful assistant."},
    {"role": "user", "content": prompt}
]
text = tokenizer.apply_chat_template(
    messages,
    tokenize=False,
    add_generation_prompt=True
)
model_inputs = tokenizer([text], return_tensors="pt").to(model.device)

generated_ids = model.generate(
    **model_inputs,
    max_new_tokens=512
)
generated_ids = [
    output_ids[len(input_ids):] for input_ids, output_ids in zip(model_inputs.input_ids, generated_ids)
]

response = tokenizer.batch_decode(generated_ids, skip_special_tokens=True)[0]

06。

结语

Qwen2.5的发布标志着语言模型领域的一次重要飞跃。随着这一新模型的推出，开发者们将能够在编程、数学等多个领域中体验更为强大的智能辅助。期待未来看到更多创新应用的实现，相信Qwen2.5将助力开发者们在数字世界中开拓出更广阔的前景。通过这一系列强大的模型，定能推动人工智能的边界，开启更加美好的未来！