我要投稿

Llama4凌晨突然发布！以超高性价比开启原生多模态AI和开源MoE的新时代，并公开训练策略！

发布日期：2025-04-06 05:24:55 浏览次数： 2419 作者：机智流

本文翻译自官方博客，原文链接见文末

要点总结

Llama团队发布了 Llama 4 系列中的首批模型，这些模型将使人们能够构建更个性化的多模态体验。

Llama 4 Scout，一个拥有 170 亿活跃参数和 16 个专家的模型，是同类中全球最佳的多模态模型，比前几代Llama模型更强大（总共 109B 参数），且能适配单个H100 GPU。此外，Llama 4 Scout 提供业界领先的 1000 万 token （大致相当于 500 万个字）上下文窗口，在基准测试中表现优于 Gemma 3、Gemini 2.0 Flash-Lite 和 Mistral 3.1。

Llama 4 Maverick，一个拥有 170 亿活跃参数和 128 个专家的模型，是同类中最佳的多模态模型，在广泛报道的基准测试中击败 GPT-4o 和 Gemini 2.0 Flash，同时在推理和编码方面与新的 DeepSeek v3 表现相当，但活跃参数不到其一半。Llama 4 Maverick 提供业界最佳的性能成本比，其实验性聊天版本在 LMArena 上获得1417的ELO评分。

这些模型是 Llama 迄今最好的成果，得益于从 Llama 4 Behemoth（一个拥有2880亿活跃参数和16个专家的模型）中提炼而来，后者是 Llama 最强大的模型，也是全球最智能的 LLM 之一。Llama 4 Behemoth 在多个STEM基准测试中超越 GPT-4.5、Claude Sonnet 3.7 和 Gemini 2.0 Pro。目前 Llama 4 Behemoth 仍在训练中，Llama 团队将在后续分享更多细节。

Llama 4 Scout 和 Llama 4 Maverick 目前已经开源，可在 llama.com^[1] 和 Hugging Face^[2] 下载。海外用户还可在 WhatsApp、Messenger、Instagram Direct 以及 Meta.AI 网站上体验基于 Llama 4 的 Meta AI。

引言

随着越来越多的人使用人工智能（AI）提升日常生活，领先的模型和系统保持开放至关重要，以便每个人都能共同构建个性化的未来体验。今天，Llama 很高兴宣布支持整个 Llama 生态系统的最先进模型套件。Llama 推出了 Llama 4 Scout 和 Llama 4 Maverick，这是首批开源的多模态模型，支持前所未有的上下文长度，并首次采用混合专家（Mixture-of-Experts, MoE）架构。Llama 还预览了 Llama 4 Behemoth，这是全球最智能的大型语言模型之一，也是 Llama 迄今最强大的模型，用作新模型的“教师”。

这些 Llama 4 模型标志着 Llama 生态系统的新时代开端。Llama 设计了 Llama 4 系列中的两个高效模型：Llama 4 Scout（170亿活跃参数，16个专家）和 Llama 4 Maverick（170亿活跃参数，128个专家）。前者可适配单个H100 GPU（使用Int4量化），后者可适配单个H100主机。Llama 还训练了一个“教师”模型 Llama 4 Behemoth，在专注于STEM的基准测试（如 MATH-500 和 GPQA Diamond）中超越 GPT-4.5、Claude Sonnet 3.7 和 Gemini 2.0 Pro。虽然 Llama 4 Behemoth 仍在训练中未发布，但 Llama 很高兴分享更多技术细节。

今天，Llama 团队将分享其开发的四个主要部分以及研究设计过程的洞察，并期待社区用新 Llama 4 模型构建的精彩体验。

（其中纵轴 ELO 指模型在 LMArena 榜上的评分）

预训练 (Pre-training)

这些模型代表了 Llama 的最佳水平，以诱人的价格提供多模态智能，同时超越了更大规模的模型。构建下一代 Llama 模型需要 Llama 在预训练阶段采取多种新方法。

Llama 的新 Llama 4 模型首次使用混合专家（MoE）架构。在MoE模型中，单个标记仅激活总参数的一部分。MoE架构在训练和推理时计算效率更高，在固定训练FLOPs预算下，相比密集模型提供更高的质量。

例如，Llama 4 Maverick 模型拥有170亿活跃参数和4000亿总参数。Llama 使用交替的密集层和MoE层以提高推理效率。MoE层使用128个路由专家和一个共享专家。每个标记被发送到共享专家和128个路由专家之一。因此，尽管所有参数都存储在内存中，但在服务这些模型时仅激活总参数的子集。这通过降低模型服务成本和延迟提高了推理效率——Llama 4 Maverick 可在单个H100 DGX主机上运行，便于部署，或通过分布式推理实现最大效率。

Llama 4 模型设计为原生多模态，通过早期融合（early fusion）无缝整合文本和视觉标记到统一的模型主干中。早期融合是一大进步，使 Llama 能够联合预训练大量未标记的文本、图像和视频数据。Llama 还改进了 Llama 4 的视觉编码器——基于 MetaCLIP——但与冻结的 Llama 模型联合训练，以更好地适配编码器与大型语言模型。

Llama 开发了一种新训练技术 MetaP，使 Llama 能够可靠设置关键模型超参数，如每层学习率和初始化规模。Llama 发现所选超参数在不同批量大小、模型宽度、深度和训练标记值中转移良好。Llama 4 通过在200种语言上预训练（包括超过100种每种超过10亿标记的语言）支持开源微调努力，总体多语言标记比 Llama 3 多10倍。

此外，Llama 专注于高效模型训练，使用FP8精度，不牺牲质量并确保高模型FLOPs利用率——在预训练 Llama 4 Behemoth 时，使用FP8和32K GPU，Llama 实现了390 TFLOPs/GPU。训练数据混合包括超过30万亿（30T）标记，是 Llama 3 预训练混合的两倍多，涵盖多样化的文本、图像和视频数据集。

Llama 在“中期训练”（mid-training）中继续训练模型，使用新训练配方（包括使用专门数据集的长上下文扩展）提升核心能力。这使 Llama 增强了模型质量，同时为 Llama 4 Scout 解锁了业界最佳的1000万输入上下文长度。

后训练 (Post-training)

Llama 的最新模型包括大小不同的选项，以满足各种用例和开发者需求。Llama 4 Maverick 在图像和文本理解方面提供无与伦比的业界领先性能，支持创建跨越语言障碍的复杂AI应用。作为通用助手和聊天用例的产品主力模型，Llama 4 Maverick 在精确图像理解和创意写作方面表现出色。

在后训练 Llama 4 Maverick 时，最大的挑战是平衡多种输入模态、推理和对话能力。为混合模态，Llama 设计了精心策划的课程策略，不牺牲与单一模态专家模型相比的性能。

在 Llama 4 中，Llama 通过采用不同方法重构了后训练流程：轻量级监督微调（SFT） > 在线强化学习（RL） > 轻量级直接偏好优化（DPO）。关键经验是，SFT和DPO可能过度约束模型，限制在线RL阶段的探索，导致推理、编码和数学领域的次优准确性。

为解决此问题，Llama 团队使用 Llama 模型作为评判，移除了超过50%的标记为“简单”的数据，并在剩余较难数据集上进行轻量级SFT。在随后的多模态在线RL阶段，通过精心选择较难提示，Llama 实现了性能的显著提升。

此外，Llama 实施了持续在线RL策略，交替训练模型并使用它持续过滤并保留中等至高难度的提示。这种策略在计算和准确性权衡方面非常有益。

然后，Llama 进行了轻量级DPO处理与模型响应质量相关的边缘情况，有效实现了模型智能与对话能力的良好平衡。管道架构和持续在线RL策略（结合自适应数据过滤）促成了一个业界领先的通用聊天模型，具备最先进的智能和图像理解能力。

作为通用大型语言模型，Llama 4 Maverick 拥有170亿活跃参数、128个专家和4000亿总参数，与 Llama 3.3 70B 相比以更低价格提供高质量。Llama 4 Maverick 是同类最佳多模态模型，在编码、推理、多语言、长上下文和图像基准测试中超越类似模型如 GPT-4o 和 Gemini 2.0，并与更大的 DeepSeek v3.1 在编码和推理上竞争。

Llama 的较小模型 Llama 4 Scout 是通用模型，拥有170亿活跃参数、16个专家和1090亿总参数，在其类别中提供最先进的性能。Llama 4 Scout 将支持的上下文长度从 Llama 3 的128K大幅提升至业界领先的1000万标记。这开启了多文档摘要、解析广泛用户活动以实现个性化任务以及推理庞大代码库的可能性。

Llama 4 Scout 在预训练和后训练中均使用256K上下文长度，使基础模型具备在超长上下文方面的泛化能力。这在“大海捞针”和累积负对数似然（NLL）任务中均展示了令人信服的结果。

Llama 4 架构的关键创新是使用无位置嵌入的交错注意力层（interleaved attention layers^[3]）。此外，Llama 采用注意力在推理时的温度缩放（inference time temperature scaling^[4]）以增强长度泛化。Llama 称此为 iRoPE 架构，其中“i”代表“交错”（interleaved）注意力层，强调支持“无限”上下文长度的长期目标，“RoPE”指大多数层中使用的旋转位置嵌入（rotary position embeddings^[5]，也可以参考我们往期热门内容：《聊聊并写写RoP》）。

Llama 用各种图像和视频帧静止图像训练两个模型，以赋予它们广泛的视觉理解能力，包括时间活动和相关图像。这支持多图像输入与文本提示的无缝交互，用于视觉推理和理解任务。模型在预训练中最多使用48张图像，后训练中测试了最多8张图像，结果良好。

Llama 4 Scout 在图像定位（image grounding）方面也是同类最佳，能将用户提示与相关视觉概念对齐，并将模型响应锚定到图像区域。这支持更精确的视觉问答，使大型语言模型更好地理解用户意图并定位感兴趣的对象。Llama 4 Scout 在编码、推理、长上下文和图像基准测试中也超越类似模型，并比所有之前的 Llama 模型表现更强。

将Llama推向新规模：2T Behemoth

Llama 团队很高兴向大家透露 Llama 4 Behemoth，这是一个展示同类中高级智能的“教师”模型。Llama 4 Behemoth 也是多模态混合专家模型，拥有2880亿活跃参数、16个专家和近2万亿（2T）总参数。在数学、多语言和图像基准测试中提供最先进的性能（针对非推理模型），它是教授较小 Llama 4 模型的完美选择。Llama 团队从 Llama 4 Behemoth 中共同提炼（codistilled）出 Llama 4 Maverick，显著提升了最终任务评估指标的质量。

Llama 团队开发了一种新的提炼损失函数，通过训练动态加权软目标和硬目标。在学生训练中使用的大多数训练数据中，从 Llama 4 Behemoth 共同提炼可分摊计算密集型前向传递的成本，以计算提炼目标。对于学生训练中加入的新数据，Llama 在 Behemoth 模型上运行前向传递以创建提炼目标。

后训练一个拥有2万亿参数的模型也是一大挑战，需要 Llama 彻底改造配方，从数据规模开始。为最大化性能，Llama 不得不修剪95%的SFT数据（相比小型模型的50%），以实现质量和效率的必要关注。

Llama 发现，轻量级SFT后进行大规模强化学习（RL）在模型的推理和编码能力上产生了更显著的改进。Llama 的RL配方专注于通过策略模型进行pass@k分析采样难提示，并制定难度递增的训练课程。

Llama 还发现，在训练期间动态过滤掉零优势的提示（prompts with zero advantage）并构建包含多种能力的混合提示批次对数学、推理和编码性能提升至关重要。最后，从各种系统指令中采样对于确保模型保留推理和编码的指令遵循能力并在多种任务中表现良好至关重要。

为2万亿参数模型扩展RL还需要 Llama 改造底层RL基础设施，因其规模前所未有。Llama 优化了MoE并行设计以提高速度，加快了迭代。Llama 开发了一个完全异步的在线RL训练框架，增强了灵活性。与牺牲计算内存以在内存中堆叠所有模型的现有分布式训练框架相比，Llama 的新基础设施支持将不同模型灵活分配到单独GPU上，根据计算速度平衡多个模型的资源。这一创新使训练效率比前几代提高了约10倍。

保障与保护

Llama 的目标是开发最有帮助和实用的模型，同时防范和减轻最严重的风险。Llama 根据《开发者使用指南：AI保护》（Developer Use Guide: AI Protections）的最佳实践构建了 Llama 4。这包括在模型开发的每个阶段（从预训练到后训练）整合缓解措施，以及可调的系统级缓解措施，保护开发者免受对抗性用户的侵害，从而赋予开发者创建有益、安全且适应性强的 Llama 支持应用体验的能力。

53AI，企业落地大模型首选服务商

产品：场景落地咨询+大模型应用平台+行业解决方案

承诺：免费场景POC验证，效果验证后签署服务协议。零风险落地应用大模型，已交付160+中大型企业