我要投稿

Meta 对 DeepSeek 的回应来了：Llama 4 发布，上下文长达 1000 万，参数超 2 万亿！

发布日期：2025-04-06 08:16:45 浏览次数： 2059

作者：AI范儿

微信搜一搜，关注“AI范儿”

Meta 的 Llama 系列自诞生以来，便以其卓越的性能和开源精神引领了大型语言模型（LLM）社区的浪潮。然而，自 Llama 3 发布以来，时间已悄然流逝近一年，开源爱好者和开发者们翘首以盼的下一代模型迟迟未现。

就在今天，我们终于迎来了 Llama 4 的震撼亮相！作为 Llama 家族的第四代产品，这一全新模型不仅延续了 Meta 的技术传承，更在性能、功能和应用场景上实现了质的飞跃，标志着开源 AI 迈向新纪元。

本文将从背景、技术特性、模型变体、应用潜力以及未来展望五个方面，带您全面了解 Llama 4 的魅力。

一、背景与发展历程

Llama（Large Language Model Meta AI）系列由 Meta AI 于 2023 年首次推出，旨在为研究人员和开发者提供高效、开源的语言模型解决方案。从初代 Llama 到后续的 Llama 2 和 Llama 3，Meta 逐步放宽模型的访问权限，并引入了指令微调版本和多模态功能，使其在学术界和产业界广受欢迎。

然而，开源领域的竞争从未停歇，尤其是中国 AI 公司 DeepSeek 的崛起，对 Meta 的 Llama 系列构成了显著压力。DeepSeek 自 2024 年以来推出了多款高性能开源模型（如 DeepSeek-V2），以其高效的推理能力和多语言支持迅速在全球开发者社区中占据一席之地。

这种外部竞争迫使 Meta 加速 Llama 4 的研发，甚至一度传闻，Meta 组建了作战室来解密 DeepSeek 如何降低运行和部署R1和V3等模型的成本，以巩固其在开源 LLM 领域的领导地位。

据报道，Llama 4 的训练使用了超过 10 万个 H100 GPU 的超大规模集群，用于训练的整体数据组合由超过 30 万亿个 token 组成，是 Llama 3 预训练组合的两倍多，包括各种文本、图像和视频数据集。，也反映了 Meta 对抗 DeepSeek 等新兴对手的决心。

Mark Zuckerberg 在早前的声明中表示，Llama 4 旨在成为“行业中最先进的模型”，并推动 AI 代理（AI Agents）和多模态应用的普及。这一目标的背后，既是对技术突破的追求，也是对市场竞争的回应。

二、技术特性

今天，Meta 创始人兼 CEO 马克·扎克伯格在他的 Instagram 账号上宣布了新的 Llama 4 系列模型，其中两个——4000 亿参数的 Llama 4 Maverick 和 1090亿参数的 Llama 4 Scout——今天即可供开发者下载并开始使用或微调，现在可以在 llama.com 和 AI 代码共享社区 Hugging Face 上进行。

今天还预览了一款拥有 2 万亿参数的 Llama 4 巨兽，尽管 Meta 的博客文章关于发布的内容表示它仍在训练中，并未给出可能发布的具体时间。（参数指的是控制模型行为的设置，一般来说参数越多意味着模型更强大、更复杂。）

这些模型的一个主要特点是它们都是多模态的——经过训练，因此能够接收和生成文本、视频和图像（尽管没有提到音频）。

图：LLama4 Maverick 在 LMArena 上评分位 1417 分

另一个特点是它们的上下文窗口非常长——Llama 4 Maverick 为 100 万个标记（Token），Llama 4 Scout 为 1000 万个标记——分别相当于大约 15000 和 150000 页文本，所有这些模型都可以在一次输入/输出交互中处理。这意味着用户理论上可以上传或粘贴多达 7500 页的文本，并从 Llama 4 Scout 那里获得等量的信息，这对于信息密集型领域如医学、科学、工程、数学、文学等将非常有用。

Llama 4 在架构设计、训练数据和功能扩展上均有显著创新，以下是其核心技术特点：

超大上下文窗口
Llama 4 的一个亮点是其上下文窗口（context window）长度。Llama 4 Scout 模型支持高达 1000 万 token 的上下文窗口，这一数字刷新了开源模型的纪录。与之相比，Llama 3 的最大上下文仅为 128k token，而市场上其他领先模型如 GPT-4o 也未达到如此规模。超大上下文窗口使得 Llama 4 在处理长文档、复杂对话和多轮推理任务时表现出色。
混合专家模型（MoE）架构
Llama 4 全系采用了混合专家模型（Mixture of Experts, MoE）架构，这一设计通过将计算任务分配给多个“专家”子模型，提升了效率和性能。与传统密集模型相比，MoE 架构在保持高精度的同时显著降低了推理成本。
据悉，Llama 4 Maverick 和即将推出的 Behemoth 模型在此基础上进一步优化，使其在多模态任务中表现尤为突出。这一技术选择或许是对 DeepSeek 在 MoE 架构上成功应用的回应，后者在 DeepSeek-V2 中率先展示了其高效性。
多模态能力
Llama 4 不再局限于文本处理，而是迈向真正的多模态模型。Llama 4 Maverick 支持图像输入和语音交互，能够处理视觉-语言任务（如图像描述）和语音对话。这种原生多模态设计（而非简单的模块拼接）使其在复杂场景下的表现超越了部分竞争对手，例如 GPT-4o和 Gemini 2.0 Flash。
参数规模与优化
Llama 4 提供了多个变体，参数规模从小型的 Scout（16 位专家，17B 活跃参数，总参数 109B）到超大型的 Behemoth（ 16位专家，17B 活跃参数，总参数高达 2 万亿）不等。Meta 还提供了量化版本（如 BF16 和 FP8），以适配不同硬件需求。
例如，Llama 4 Maverick （128 位专家，总参数 400B）的 FP8 量化权重可在一台 H100 DGX 上运行，兼顾性能与部署灵活性。而Llama4 Scout 甚至能在单个 H100 GPU 上云运行（使用 Int4 量化）。
数据质量与多样性
Llama 4 的训练数据不仅包括公开的网络数据，还整合了 Meta 生态系统内的许可数据（如 Instagram 和 Facebook 的公开帖子）以及用户与 Meta AI 的交互记录。这种多样化的数据来源提升了模型在多语言支持（覆盖阿拉伯语、英语、法语等 12 种语言）和现实场景中的适应性，与 DeepSeek 在多语言优化上的努力形成直接竞争。

三、模型变体

Llama 4 系列包括三种主要变体，分别针对不同需求：

Llama 4 Scout

特点：小型、快速，拥有 1000 万 token 的超大上下文窗口，专为单张 H100 GPU 上的高效部署设计。
定位：适用于需要高效推理和长文本处理的场景，如学术研究、文档总结和实时对话。匹配或超越 Mistral 3.1、Gemini 2.0 Flash-Lite 和 Gemma 3 等模型。
性能：据 Meta 宣称，Scout 在多项基准测试中超越了顶级模型（如 Llama 3.1 和部分闭源模型），尤其在速度和资源占用上具有优势。
Llama 4 Maverick

特点：专注于多模态能力，支持视觉和语音输入，预训练数据量约为 22 万亿 token。
定位：面向需要复杂交互的应用，如智能助手、内容生成和多媒体分析。
性能：在视觉-语言任务和对话能力上超越 GPT-4o和 Gemini 2.0，与 DeepSeek v3.1（45.8B 参数）竞争力相当，同时使用的激活参数不到一半（17B），成为当前开源多模态模型的标杆。
图：Meta 的 Llama 4 Maverick 在所有类别中均位列前五。

Llama 4 Behemoth（即将发布）

特点：参数规模高达 2 万亿，专注于 STEM（科学、技术、工程、数学）领域的高级推理，其他模型都是从这个模型蒸馏出来的。这是一个拥有 16 位专家的 2880 亿个活跃参数模型，是我们迄今为止最强大的，也是世界上最聪明的大模型之一。
定位：目标是挑战 GPT-4.5 等闭源模型，成为开源社区的“巨无霸”。它在多个 STEM 基准测试中优于 GPT-4.5、Claude Sonnet 3.7 和 Gemini 2.0 Pro。
预期：虽然尚未发布，但其超大规模和针对性优化预示着在专业领域的巨大潜力。

四、后训练（Post-Training）

Llama 4 的后训练（Post-Training）阶段是其性能提升的关键环节，尤其是在多模态能力和推理精度上的突破。Meta 在 Llama 4 上彻底革新了后训练流程，采用了轻量级监督微调（SFT） > 在线强化学习（RL） > 轻量级直接偏好优化（DPO）的全新 pipeline（看起来参考了 DeepSeek），以应对多模态输入、推理能力和对话能力的平衡挑战。

Llama 4 Maverick 的后训练挑战与策略
在后训练 Llama 4 Maverick 时，最大的难题是多模态输入（图像和文本）与推理、对话能力之间的平衡。为此，Meta 设计了一种精心策划的课程策略（curriculum strategy），确保多模态性能不逊于单一模态专家模型。通过使用 Llama 模型作为评判工具，团队剔除了超过 50% 被标记为“简单”的数据，仅对剩余的较难数据集进行轻量级 SFT。
随后，在多模态在线 RL 阶段，通过精心挑选更具挑战性的提示（prompts），模型性能实现了显著提升。
此外，Meta 实施了持续在线 RL 策略，交替进行模型训练和数据过滤，保留中等到高难度的提示。这种方法在计算成本和精度之间取得了优异平衡。最后，通过轻量级 DPO 处理模型响应质量的边缘情况，Llama 4 Maverick 在智能性和对话能力上达到了行业领先水平，成为具备顶级图像理解能力的通用聊天模型。
Llama 4 Scout 的上下文长度优化
Llama 4 Scout 的后训练聚焦于超长上下文能力的提升。模型在预训练和后训练阶段均以 256K 的上下文长度为基础，通过创新的 iRoPE 架构（交错注意力层结合旋转位置嵌入）增强了长度泛化能力。
这种架构去除了传统的位置嵌入，并在推理时引入注意力温度缩放（temperature scaling），支持高达 1000 万 token 的上下文长度。在“大海捞针”（retrieval needle in haystack）和 1000 万 token 代码的累积负对数似然（NLL）测试中，Llama 4 Scout 展现了令人信服的性能，为多文档总结和大规模代码推理等任务开辟了新可能。
多模态视觉训练
Llama 4 的两个变体均在后训练中融入了广泛的图像和视频帧数据，以提升视觉理解能力，包括对时间活动和相关图像的感知。预训练阶段支持多达 48 张图像输入，后训练测试中则验证了最多 8 张图像的良好表现。这种多图像处理能力结合文本提示，使模型在视觉推理任务中表现出色。

五、Llama4 与 DeepSeek 相比如何？

别忘了，还有一类以推理为主的模型，例如 DeepSeek R1、OpenAI 的“o”系列（如 GPT-4o）、Gemini 2.0 和 Claude Sonnet。

使用最高参数模型基准——Llama 4 Behemoth，并将其与 DeepSeek R1 的初始发布图表中的 R1-32B 和 OpenAI o1 模型进行比较，以下是 Llama 4 Behemoth 的表现：

我们发现：

- MATH-500：Llama 4 Behemoth 略逊于 DeepSeek R1 和 OpenAI o1。
- GPQA Diamond：Behemoth领先 DeepSeek R1，但落后于 OpenAI o1。

- MMLU：Behemoth在两者中均落后，但仍然优于 Gemini 2.0 Pro 和 GPT-4.5。

总结：虽然 DeepSeek R1 和 OpenAI o1 在几个指标上略胜 Behemoth，但 Llama 4 Behemoth 仍然具有很强的竞争力，并在其类别中推理排行榜上处于或接近顶端。

六、未来展望

尽管 Llama 4 在技术上取得了突破，但其发展仍面临挑战。首先，超大规模模型的训练成本（预计 2025 年 Meta AI 基础设施支出高达 650 亿美元）需要长期回报来证明其价值。

其次，多模态功能的实际效果需经过广泛测试，尤其是在安全性（如生成风险内容）和公平性方面。此外，DeepSeek 的持续创新对 Meta 构成了长期威胁。DeepSeek 不仅在模型效率和多语言支持上表现出色，还通过低成本策略吸引了大量中小企业用户，这可能削弱 Llama 4 在商业领域的渗透力。

展望未来，Llama 4 的成功可能推动开源 AI 生态的进一步繁荣，同时加剧与 Google、OpenAI、xAI 以及 DeepSeek 等对手的竞争。Meta 首席产品官 Chris Cox 曾表示，Llama 4 将为 AI 代理铺平道路，这意味着未来的 Llama 模型可能不仅是被动工具，而是能够主动执行任务的智能实体。然而，要实现这一愿景，Meta 必须在技术创新和市场策略上双管齐下，以应对 DeepSeek 等新兴力量的挑战。

结语

Llama 4 的发布不仅是 Meta AI 技术实力的展示，也是开源 AI 社区的一次胜利。从超大上下文到多模态能力，再到多样化的模型变体，Llama 4 为用户提供了前所未有的灵活性和性能。尽管 DeepSeek 的崛起为 Meta 带来了新的竞争压力，但 Llama 4 的突破无疑巩固了其在开源领域的地位。随着 Behemoth 的到来和生态系统的完善，Llama 4 有望重塑我们对语言模型的认知，并在 AI 的未来发展中占据重要地位。

53AI，企业落地大模型首选服务商

产品：场景落地咨询+大模型应用平台+行业解决方案

承诺：免费场景POC验证，效果验证后签署服务协议。零风险落地应用大模型，已交付160+中大型企业