我要投稿

Qwen 2.5 技术报告解读

发布日期：2025-03-04 16:33:55 浏览次数： 1780 作者：三黄工作室

论文发布时间：2024年12月19日

这篇论文看的还是比较爽的，也不像Qwen 1那会快100页吓人，这个基本上10分钟就看完了。而且Qwen2.5技术报告主要是从训练角度介绍和Qwen2的区别，技术原理没有深入。

虽然Qwen并没有率先做出来推理，也没有像DeepSeek一样爆火出圈，但是但凡去看一下这几年来它开源出来的上百个模型，伟大无须多言。

Abstract & Introduction

论文介绍了Qwen2.5系列 LLM，该系列在预训练和后训练阶段均有显著改进。

预训练数据集扩展至18万亿个token，为常识、专业知识和推理能力奠定坚实基础。后训练采用监督微调和多阶段强化学习，增强人类偏好和长文本生成、结构数据分析和指令跟踪能力。

Architecture & Tokenizer

模型架构仍然没变，为Decoder Only，只是在训练语料和训练流程上做出了改进。

Qwen2.5模型核心组件仍然为：

GQA 分组注意力
SwiGLU Swish+GLU激活
RoPE 旋转位置编码
RMSNorm 均方根归一化
DCA 双块注意力
YaRN

其开发了各种尺寸的模型：

Pre-training

预训练数据

与前身 Qwen2 相比，Qwen2.5 在训练前数据质量方面表现出显著增强：

（1）更好的数据筛选。利用 Qwen2-Instruct 模型作为数据质量过滤器，以评估和评分训练样本。增强功能可实现更细致的质量评估，从而提高高质量训练数据的保留率，并更有效地筛选多种语言中的低质量样本。

（2）更好的数学和代码数据。在 Qwen2.5 的预训练阶段，整合了来自 Qwen2.5-Math 和 Qwen2.5-Coder 的训练数据。

（3）更好的合成数据。为了生成高质量的合成数据，特别是在数学、代码和知识领域，利用 Qwen2-72B-Instruct 和 Qwen2Math-72B-Instruct 。通过使用专有的通用奖励模型和专门的 Qwen2-Math-RM-72B 模型进行严格过滤，进一步提高了这些合成数据的质量。

这里其实已经在蒸馏了。。

基于这些技术，开发了一个更大、更高质量的预训练数据集，从 Qwen2 中使用的 7 万亿个token扩展到 18 万亿个token。

继续探索Scaling Law

虽然以前的研究主要使用Scaling Law来确定给定计算预算的最佳模型大小，但是Qwen团队利用它们来识别跨模型架构的最佳超参数。具体来说，Scaling Law有助于确定密集模型和不同大小的 MoE 模型的关键训练参数，例如批量大小 B 和学习率 μ。

此外，利用Scaling Law来预测和比较具有不同参数计数的 MoE 模型的性能与密集的对应模型。该分析指导了对 MoE 模型的超参数配置，使能够通过仔细调整激活参数和总参数来实现与特定密集模型变体（例如 Qwen2.5-72B 和 Qwen2.5-14B）的性能相等。

长上下文预训练

Qwen2.5 采用了两阶段的预训练方法：

初始阶段具有 4096 个标记的上下文长度，然后是扩展阶段（用于较长序列）。

在最后的预训练阶段，将除 Qwen2.5-Turbo 之外的所有模型变体的上下文长度从 4096 个令牌扩展到 32768 个令牌。同时，使用 ABF 技术将 RoPE 的基本频率从 10000 增加到 1000000。

为了增强的模型在推理过程中处理较长序列的能力，实施了YARN 和 DCA。通过这些创新，序列长度容量增加了四倍，使 Qwen2.5-Turbo 能够处理多达 100 万个token，而其他模型可以处理多达 131072 个token。

后训练

与 Qwen 2 相比，Qwen 2.5 在其训练后设计中引入了两项重大改进：

（1）扩大了监督微调数据覆盖范围：监督微调过程利用了包含数百万个高质量样本的海量数据集。这种扩展专门解决了之前模型存在局限性的关键领域，例如长序列生成、数学问题解决、编码、指令跟踪、结构化数据理解、逻辑推理、跨语言迁移和健壮的系统指令。

（2）两阶段强化学习：Qwen 2.5 中的强化学习（RL）过程分为两个不同的阶段：离线强化学习 RL 和在线强化学习。

后训练技术DPO、S

53AI，企业落地大模型首选服务商

产品：场景落地咨询+大模型应用平台+行业解决方案

承诺：免费场景POC验证，效果验证后签署服务协议。零风险落地应用大模型，已交付160+中大型企业

相关资讯

2025-04-06

vllm近期更新的一些trick总结

2025-04-06

Meta Llama 4 全面解析：全新的原生多模态 AI

2025-04-06

字节跳动开源神器Agent TARS，AI自动化时代真来了

2025-04-06

一文读懂开源 Llama 4 模型

2025-04-06

Meta深夜开源Llama 4！首次采用MoE，惊人千万token上下文，竞技场超越DeepSeek

2025-04-06

Meta 对 DeepSeek 的回应来了：Llama 4 发布，上下文长达 1000 万，参数超 2 万亿！

2025-04-06

Colab上运行Gemma 3 + Ollama：开发者快速入门指南

2025-04-06

开源LLaMA 4 发布，288B参数巨擘，传统RAG可能原地失业！

了解更多

160+中大型企业正在使用53AI

立即咨询预约演示

把握AI发展的机遇，共同探索、共同进步

2025-01-22

如何打造基于GenAI的员工服务机器人

2025-01-22

热点资讯

我把最近爆火的 DeepSeek-V3 接到了 Cursor！

2025-01-01

Ollama 本地运行大模型(LLM)完全指南

2024-07-25

万字详解DeepSeek-R1，引爆AI圈的又一力作，大模型爆发势不可挡！

2025-01-21

太强了！10大开源大模型！

2024-05-06

QWEN2.5开源上新，14B/32B回归实测：这就是最强单卡本地模型！

2024-09-20

全民进入GPT-4时代：OpenAI强势推出GPT-4o mini！彻底取代GPT-3.5！

2024-07-20

Qwen2 阿里最强开源大模型（Qwen2-7B）本地部署、API调用和WebUI对话机器人

2024-06-12

如何免费使用 Claude AI？Claude使用指南！

2024-07-11

开源项目Composio：突破 AI 智能体开发的边界

2024-08-13

DeepSeek-V3 正式发布

2024-12-26

大家都在问

4天开发，1700万美元融资：开源的Browser Use为啥这么火？

2025-04-03

为什么大模型本地部署后“没了下文”？

2025-04-03

阿里搞了个大新闻！这AI能听会看还会实时唠嗑，科幻片都不敢这么拍？

2025-04-03

Agent框架大比拼：谁将引领智能应用的未来？

2025-04-01

OWL团队万字分享：复现Manus最好的团队，如何看待Agentic AI的落地现状？

2025-03-31

字节的开源 Manus — Agent Tars，我们离真正的复杂工作流还有多远？

2025-03-25

DeepSeek-V3-0324 就这么悄咪咪的更新了？

2025-03-25

【深度思考】MCP究竟是什么？

2025-03-24

热门标签

内容创作大模型技术个人提效 langchain llamaindex 多模态技术 RAG技术智能客服知识图谱模型微调 RAGFlow coze Dify Fastgpt Bisheng Qanything AI+汽车 AI+金融 AI+工业 AI+培训 AI+SaaS 提示词框架提示词技巧 AI+电商 AI面试数字员工 ChatBI 知识管理开源大模型智能营销智能硬件智能化改造 AI+医疗 MaxKB