我要投稿

实测Llama 4，究竟是王者归来，还是廉颇老矣？

发布日期：2025-04-07 06:16:07 浏览次数： 1830 作者：小窗幽记机器学习

引言
简介
核心技术
效果实测

长文档问答(领域问答)
以图生朋友圈文案
图片信息抽取
表格问答

引言

东风袅袅泛崇光，香雾空蒙月转廊。小伙伴们好，我是微信公众号<小窗幽记机器学习>的小编卖铁观音的小男孩。Meta AI 近日发布了其最新的 Llama 4 模型系列，开启原生多模态 AI 新纪元。该系列包括 Llama 4 Scout 和 Llama 4 Maverick 两款高效模型，以及作为教师模型的 Llama 4 Behemoth。这些模型旨在赋能开发者构建更具个性化的多模态体验，并在各自的规模级别上展现出卓越的性能。

简介

相比于之前的模型，Llama 4系列模型是混合专家架构(MoE)的多模态模型，能够支持文本和多模态体验(输入支持文本和图片，但是输出结果尚未支持图片)。截至目前(4月6日)官方开放Llama 4系列的两个高效模型的下载。

1、Llama 4 Scout。

具有16个专家，170亿激活参数，总参数量109B，支持10M长度的上下文(即1000 万上下文窗口)。
在广泛报告的基准测试中优于 Gemma 3、Gemini 2.0 Flash-Lite 和 Mistral 3.1。Llama 4 Scout号称是同类产品中最好的多模态模型。
适用于超长文档场景，进一步蚕食RAG这个研究方向。

2、Llama 4 Maverick。

具有128个专家，170亿激活参数，总参数量400B，支持1M长度的上下文(即100万上下文窗口)，是同类产品中最佳的多模态模型。
该模型具备顶尖的图像定位能力，能够精准关联用户指令与视觉元素，实现像素级响应锚定。
在广泛报告的基准测试中击败了 GPT-4o 和 Gemini 2.0 Flash，同时在推理和编码方面与新的 DeepSeek v3结果相当，而其激活参数还不到后者的一半。Llama 4 Maverick的实验性聊天版本(即llama-4-maverick-03-26-experimental，这是一个text only模型)在大模型竞技场 LMArena 上的 ELO 得分为 1417，总排名位居第2。开源模型里面超越DeepSeek，位居第一。

3、Llama 4 Behemoth。

上述这些模型之所以如此能打，归功于从 Llama 4 Behemoth 进行蒸馏。
Llama 4 Behemoth 是一款拥有16个专家，2880亿激活参数，总参数量高达2T的模型，是Meta迄今为止最强大的模型之一，也是全球最智能的 LLM 之一。
Llama 4 Behemoth 在多个 STEM 基准测试中（如MATH-500和GPQA Diamond）优于 GPT-4.5、Claude Sonnet 3.7 和 Gemini 2.0 Pro。Llama 4 Behemoth 仍在持续训练中，尚未发布。

更多大模型相关，欢迎关注微信公众号《小窗幽记机器学习》：

核心技术

1. 混合专家架构:

Llama 4 模型是 Meta 首批采用 混合专家 (MoE) 架构 的模型。在 MoE 模型中，每个输入 token 只会激活模型总参数中的一小部分。这种架构在训练和推理时都更加计算高效，并且在给定的计算预算下，能够产生比密集模型更高质量的结果。

例如，Llama 4 Maverick 模型拥有 170 亿个激活参数 和 4000 亿个总参数. 其推理过程采用了交替的密集层和 MoE 层以提高效率。MoE 层使用了 128 个路由专家 和一个共享专家，每个 token 会被发送到共享专家以及 128 个路由专家中的一个。虽然所有参数都存储在内存中，但只有一部分参数在模型服务时被激活，从而降低了模型服务成本和延迟。Llama 4 Maverick 可以在单个 NVIDIA H100 DGX 主机上运行，也可以通过分布式推理实现最大效率。
Llama 4 Scout 同样拥有 170 亿个激活参数，但配备了 16 个专家，总参数为 1090 亿。它可以轻松适应单个 NVIDIA H100 GPU（通过 Int4 量化）。
作为教师模型的 Llama 4 Behemoth 更为庞大，拥有 2880 亿个激活参数，16 个专家，以及近 两万亿的总参数。

2. 原生多模态集成:

Llama 4 模型系列被设计为 原生多模态，通过 早期融合 (early fusion) 将文本和视觉 tokens 无缝集成到统一的模型骨干中。这种方法实现了模型在大量未标注的文本、图像和视频数据上的联合预训练。Llama 4 还改进了视觉编码器，该编码器基于 MetaCLIP，但与冻结的 Llama 模型联合训练，以更好地适应 LLM。

3. 先进的预训练技术:

Meta 团队开发了一种新的训练技术 MetaP，可以可靠地设置关键的模型超参数，例如每层学习率和初始化尺度。实验表明，这些选定的超参数在不同的批大小、模型宽度、深度和训练 tokens 数量上都表现出良好的迁移性。
Llama 4 在 200 种语言 上进行了预训练，其中包括超过 100 种拥有超过 10 亿个 tokens 的语言，其多语言 tokens 总量是 Llama 3 的 10 倍。这为开源社区的微调工作奠定了坚实的基础。
为了提高训练效率，Llama 4 采用了 FP8 精度，在不牺牲质量的前提下实现了高模型 FLOPs 利用率. 在使用 FP8 和 32K GPUs 预训练 Llama 4 Behemoth 模型时，达到了 390 TFLOPs/GPU 的计算效率。
Llama 4 的整体预训练数据量超过 30 万亿个 tokens，是 Llama 3 的两倍以上，涵盖了多样化的文本、图像和视频数据集。
模型在预训练过程中还进行了 “中期训练 (mid-training)”，通过新的训练方法（包括使用专门数据集进行长上下文扩展）来提升核心能力. 这使得 Llama 4 Scout 具备了行业领先的 1000 万 tokens 的输入上下文窗口。

4. 精细的后训练流程:

Llama 4 模型采用了改进的后训练流程，以平衡多模态输入、推理和对话能力。该流程包括：

轻量级监督微调 (Lightweight Supervised Fine-tuning, SFT): Meta 团队通过使用 Llama 模型作为裁判，移除了超过 50% 的被标记为“简单”的数据，并对剩余的“困难”数据集进行了轻量级 SFT。
多模态在线强化学习 (Multimodal Online Reinforcement Learning, RL): 通过精心选择更具挑战性的 prompts，实现了性能的显著提升。团队还实施了 持续在线 RL 策略，交替训练模型并使用模型持续过滤和保留中等至高难度的 prompts，从而在计算和准确性之间取得了良好的平衡。
轻量级直接偏好优化 (Lightweight Direct Preference Optimization, DPO): 用于处理与模型响应质量相关的边界情况，有效地平衡了模型的智能和对话能力。

5. Llama 4 Scout 的独特优势

行业领先的 1000 万 tokens 上下文长度: 这为多文档摘要、解析广泛的用户活动以实现个性化任务以及对庞大代码库进行推理等应用场景带来了全新的可能性。
先进的长度泛化能力: Llama 4 Scout 在预训练和后训练中都使用了 256K 的上下文长度。在文本"大海捞针"检索任务以及对1000万token代码的累积负对数似然（NLLs）等任务中展示了令人信服的结果。
iRoPE 架构: Llama 4 的一个关键创新是使用了 不带位置嵌入的交错注意力层 (interleaved attention layers without positional embeddings) 。此外，还采用了推理时注意力温度缩放 (inference time temperature scaling of attention) 来增强长度泛化能力。这种架构被称为 iRoPE，其中 “i” 代表交错注意力层，寓意支持“无限”上下文长度的长期目标，“RoPE” 则指在大多数层中使用的旋转位置嵌入 (rotary position embeddings)。
卓越的图像基础能力 (Image Grounding): Llama 4 Scout 能够在图像中对齐用户 prompts 和相关的视觉概念，并将模型响应锚定到图像的特定区域，从而实现更精确的视觉问答。

6. Llama 4 Maverick 的卓越性能

顶尖的多模态模型: 在编码、推理、多语言、长上下文和图像基准测试中，Llama 4 Maverick 优于 GPT-4o 和 Gemini 2.0 等同类模型，并且在推理和编码方面与规模更大的 DeepSeek v3.1 相当。
出色的性能成本比: 实验性的聊天版本在 LMArena 上获得了 1417 的 ELO 评分。
强大的图像和文本理解能力: 能够支持复杂 AI 应用的创建，跨越语言障碍。

从LiveCodeBench评测结果可以看出，Llama-4-Maverick-17B-128E （402B）代码能力不及DeepSeek-V3-0324。四个多模态测试（Image Reasoning MMLU, MathVista, Image understanding ChartQA, DocVQA）Llama-4-Scout-17B-16E （109B）和 Llama-4-Maverick-17B-128E （402B）都优于 GPT-4o。单纯从榜单来看的话，llama-4 应该是最好的开源多模态大模型。

7. Llama 4 Behemoth：强大的教师模型

拥有 2880 亿个激活参数 和近 两万亿总参数，是 Meta 最强大的 LLM 之一.
在数学、多语言和图像基准测试中表现出顶尖的性能。
Llama 4 Maverick 通过与 Llama 4 Behemoth 进行共同蒸馏 (codistillation)
，在终端任务评估指标上实现了显著的质量提升。Meta 开发了一种新颖的蒸馏损失函数，可以在训练过程中动态地加权软目标和硬目标。

8. 大规模模型训练的挑战与应对

训练拥有两万亿参数的模型带来了巨大的挑战，需要对训练流程进行全面革新。为了最大化性能，Llama 4 Behemoth 在后训练中需要剪枝 95% 的 SFT 数据，以确保对质量和效率的关注。大规模强化学习 (RL) 也需要革新底层 RL 基础设施，Meta 团队优化了 MoE 并行化设计以提高速度，并开发了完全异步的在线 RL 训练框架，实现了约 10 倍的训练效率提升。

9. 安全保障与偏见缓解

Meta 非常重视 Llama 4 模型的安全性和可靠性。

在预训练阶段，采用 数据过滤 和其他数据缓解措施。在后训练阶段，应用一系列技术以确保模型符合有益于用户和开发者的策略。
Meta 开源了多种系统级安全工具，开发者可以将其集成到 Llama 模型和其他第三方工具中:

Llama Guard: 基于 Meta 与 MLCommons 共同开发的危害分类法，用于检测输入或输出是否违反用户定义的策略。
Prompt Guard: 一个在大型攻击语料库上训练的分类器模型，能够检测显式恶意 prompts (Jailbreaks) 和包含注入输入的 prompts (Prompt Injections)。
CyberSecEval: 帮助 AI 模型和产品开发者理解和降低生成式 AI 网络安全风险的评估工具。

Meta 团队进行了系统的模型测试，包括使用 对抗性动态探测 (adversarial dynamic probing) 和新的 生成式攻击代理测试 (Generative Offensive Agent Testing, GOAT) ，以提高测试覆盖率和更快地发现漏洞。
在解决 LLM 中的偏见方面，Llama 4 相较于 Llama 3 取得了显著的进步，在有争议的政治和社会话题上的拒绝率更低，响应更平衡，政治倾向也得到了控制。

实战

由于Scout和Maverick分别支持10M和1M的上下文，并支持输入图片。下面将基于长文档问答和图片理解任务进行实战评测。

长文档问答

输入文档：是一份产品使用说明书，这里随便选取荣耀70 Pro的用户手册文档荣耀70 Pro 用户手册-(Magic UI 6.1_01,zh-cn).pdf，答案所在原文段落如下：

输入文字：

怎么拍摄带有水印的照片？

Llama-4-Scout

Llama-4-Maverick

Gemini2.5结果

具体使用的模型版本是Gemini 2.5 Pro Preview 03-25，输出结果如下：

图片理解(写朋友圈文案)

输入图片：

输入文字：

基于这张图，帮我写一条朋友圈文案，要求富有诗意和人生哲理，字数<100。

Llama-4-Scout

Llama-4-Maverick

Gemini2.5结果

具体使用的模型版本是Gemini 2.5 Pro Preview 03-25，输出结果如下：

好的，这里有几条供您选择：

选项一：

暮色温柔，繁花依旧。生命纵有黄昏时，亦可向光而行，从容绽放。

选项二：

夕阳熔金，玫瑰盛放。温柔了岁月，惊艳了时光。愿珍惜每一刻美好。

选项三：

落日余晖，花影婆娑。心若有景，何惧日晚风斜？安于当下，静待芬芳。

选项四：

花开向晚霞，温柔落心间。世事皆浮沉，唯美与心安不可负。

选项五：

赏一场落日，看一季花开。人间浪漫，不过是温柔的坚持与热爱。

希望这些文案能触动你！

图片信息抽取

输入图片：

输入文本：

以json格式输出抽取到的文字内容，key值"ocr_res",value值是抽取到的文字结果。

Llama-4-Scout

Llama-4-Maverick

Claude-3.7-Sonnet

Gemini2.5结果

表格问答

输入图片：

输入问题：

从Arena Score上看，Top 5分别是哪5个？

From the Arena Score, what are the top 5 best models?

Llama-4-Scout

Llama-4-Maverick

Qwen2.5VL-7B结果

Gemini2.5结果

根据图片中 "Arena Score" 这一列的数据，得分最高的 Top 5 模型分别是：

1.  **Gemini-2.5-Pro-Exp-03-25** (Arena Score: 1439)
2.  **Llama-4-Maverick-03-26-Experimental** (Arena Score: 1417)
3.  **ChatGPT-4o-latest (2025-03-26)** (Arena Score: 1410)
4.  **Grok-3-Preview-02-24** (Arena Score: 1403)
5.  **GPT-4.5-Preview** (Arena Score: 1398)

总结

Llama 4 模型系列的问世标志着 AI 领域的重大突破，其在模型架构、训练方法、多模态能力和安全性方面均展现出卓越水平。该系列引入的混合专家架构大幅提升了模型效率与性能，原生多模态集成为开发更加丰富的 AI 应用创造了条件，而千万级上下文窗口则为长序列数据处理提供了强大支持，这也使得 RAG 技术的应用范围受到一定挤压。

从实际应用效果来看，Llama 4 特别适合超长文档处理场景，如翻译、文档摘要和问答，以及各类多模态任务。不过，在中文环境下，Llama 4 的多模态处理能力仍显不足，比如，表格问答任务里面，同一张图片，使用英文提问的回答效果显著优于中文提问。中文多模态任务中，Llama 4与国产的 Qwen 2.5VL 系列相比有明显差距，因此在中文应用场景中还需进一步微调优化。

53AI，企业落地大模型首选服务商

产品：场景落地咨询+大模型应用平台+行业解决方案

承诺：免费场景POC验证，效果验证后签署服务协议。零风险落地应用大模型，已交付160+中大型企业