我要投稿

Meta Llama 4 全面解析：全新的原生多模态 AI

发布日期：2025-04-06 16:04:15 浏览次数： 2072 作者：AIGC新知

Llama 4：原生多模态，混合专家架构，超长上下文支持。

点击蓝字

关注我们

今天，Meta发布Llama 4系列模型，包括两款高效模型Llama 4 Scout、Llama 4 Maverick，以及即将的新教师模型——Llama 4 Behemoth。

其中，Llama4 Scout支持1000万token的超长上下文窗口，为多文档摘要、解析广泛用户活动以实现个性化任务以及推理庞大代码库等应用提供了更多可能性。

此外，Llama4系列还整合了文本、图像和视频的统一框架，使其具备原生多模态能力。

它采用了混合专家（MoE）架构，提高了训练和回答用户查询时的效率。这种架构通过将数据处理任务分解为子任务，并委派给更小的、专门的“专家”模型，从而提升了整体的运算效率。

在基准测试里面，Llama 4 Maverick 超越了同类性的模型，比如GPT-4o以及4.5预览版、DeepSeek v3.1以及R1模型，将谷歌的Gemini 2.0 Flash远远甩在身后。

接下来将带你详细了解本次llama4模型的新特性。

技术背景

Llama4 是 Meta 于今日发布的新一代开源大语言模型系列，标志着其在多模态 AI 领域的重要突破。

该系列包含三款模型：Scout（通用型，支持超长上下文）、Maverick（高性能多模态）和 Behemoth（万亿级参数巨模型，尚未发布）。

其主要目标是通过技术创新推动开源生态发展，同时提升模型在复杂任务中的实用性，例如长文本处理、跨模态推理及企业级应用。

核心技术架构

混合专家（MoE，Mixture of Experts）架构

Llama4系列AI模型是Meta公司推出的最新产品，它采用了混合专家（MoE，Mixture of Experts）架构，这是一种在训练和回答用户查询时效率更高的架构。

混合专家架构的核心思想是将数据处理任务分解为多个子任务，并将这些任务交给不同的小型“专家”模型进行处理，从而有效提升了模型在训练和回答用户查询时的效率。

例如，Llama4Maverick模型总共有4000亿个参数，但在128个“专家”模型中只有170亿个活跃参数。这种架构使得模型在处理特定任务时，只需激活相关的专家模型，从而减少不必要的计算资源浪费，提高整体的运算效率。

此外，Llama4系列模型是Meta首批使用混合专家架构的模型，这种架构在训练和推理时的计算效率更高，并且在相同的训练FLOPs预算下，能够生成更高质量的结果。

iRoPE 架构：无限上下文支持

Llama4系列中的iRoPE架构（Interleaved Rotary Position Embeddings）是其实现无限上下文支持的关键技术。

iRoPE架构通过使用交错注意力层，而不依赖于位置嵌入，来增强模型处理长上下文的能力。这种架构在推理时采用了温度缩放注意力，以增强长度泛化能力。其中“i”代表“交错”（interleaved）注意力层，突出了支持“无限”上下文长度的长期目标，“RoPE”则指的是在大多数层中使用的旋转位置嵌入（Rotary Position Embeddings）。

Llama4架构的一个关键创新是使用没有位置嵌入的交错注意层。此外，Meta采用注意力的推理时间温度缩放来增强长度泛化，并称之为iRoPE架构。Llama4 Scout将支持的上下文长度从Llama 3中的128K大幅增加到行业领先的1000万个token，适用于多文档摘要、解析大量用户活动以执行个性化任务以及对庞大的代码库进行推理。

此外，Llama4架构的设计思想是通过追求无限上下文的目标来指导架构设计，特别是利用长度外推能力——在短序列上训练，泛化到极长序列。最大训练长度是256K。

具体做法包括本地注意力层（Local Attention）使用RoPE处理短上下文（如8K），可并行化，而全局注意力层（Global Attention）负责处理长上下文（>8K），且不使用位置编码（NoPE思想），这有助于提升外推能力。

为了解决上下文变长时注意力权重趋于平坦、影响推理的问题，在推理时对全局层应用温度缩放，增强长距离推理，同时保持短上下文性能。

原生多模态融合

Llama 4采用了原生多模态设计，能够处理和整合各种类型的数据，包括文本、视频、图像和音频，并且可以在这些格式之间转换内容。

采用早期融合技术，能将文本和视觉 token 无缝整合到一个统一的模型框架里。可以用海量的无标签文本、图片和视频数据一起来预训练模型。这种设计使得Llama 4在处理多模态任务时，如图文检索、视觉问答（VQA）等场景，表现出色。

如下，Llama 4 Scout 在编码、推理、长上下文和图像基准测试方面也超过了同类模型，提供了比之前所有 Llama 模型更强的性能。

此外，Llama 4还改进了基于MetaCLIP的视觉编码器，编码器基于 MetaCLIP，在训练时跟一个冻结的 Llama 模型分开进行，能更好地调整编码器，更适配大语言模型（LLM）。

训练优化技术

Llama 4的训练优化技术体现在多个方面，包括模型超参数优化、高效的模型训练以及后训练流程优化。

Llama 4采用了MetaP超参数优化技术，这是一种新的训练方法，可以更可靠地设置关键的模型超参数，例如每层学习率和初始化尺度。这些精心挑选的超参数在不同的批大小、模型宽度、深度和训练token量上都能很好地适配。

Llama 4在训练过程中采用了FP8精度，这种精度既保证了模型的高FLOPs利用率，又确保了模型质量不受影响。例如，在预训练Llama 4 Behemoth模型时，达到了每个GPU 390 TFLOPs的性能。

Llama 4的后训练流程优化采用了轻量级监督微调（SFT）→在线强化学习（RL）→轻量级直接偏好优化（DPO）的流程。这种流程旨在解决SFT和DPO可能过度限制模型的问题，通过移除超过50%被标记为“简单”的数据，对剩余更难数据进行轻量级SFT，在多模态在线RL阶段精心选择更难的提示，并实施持续在线RL策略，交替进行模型训练和数据筛选，保留中等到高难度的提示，最后进行轻量级DPO，平衡模型的智能性和对话能力。

Llama4系列模型

模型下载地址：

llama.com/llama-downloads/，

huggingface.co/meta-llama

Scout：超长上下文处理

适用于多文档摘要、用户行为分析（如个性化推荐）、大型代码库推理。