支持私有化部署
AI知识库

53AI知识库

学习大模型的前沿技术与行业应用场景


炸裂!Meta深夜推出Llama 4系列 :单卡H100能跑,千万上下文,还有2万亿“巨兽”

发布日期:2025-04-06 06:30:25 浏览次数: 1570 作者:AI寒武纪
推荐语

Meta最新力作Llama 4系列震撼发布,引领多模态AI新纪元。

核心内容:
1. Llama 4系列全面采用MoE架构,原生多模态训练
2. Llama 4 Scout、Maverick和Behemoth三大模型详解
3. 技术亮点:原生多模态、训练流程优化、超长上下文实现

杨芳贤
53A创始人/腾讯云(TVP)最具价值专家


 

小扎终于想起发布 Llama 4 了,本来早就应该发布的的节奏全被DeepSeek R1打乱了,哈哈?!


Meta 刚刚放出了 Llama 4 系列的首批模型,按照官推的说法这次发布是对 Llama 系列的一次彻底重新设计

先划重点:

核心变化:Llama 4 全系采用混合专家(MoE)架构,并且是原生多模态训练,不再是 Llama 3 那样的纯文本模型了。这次发布了 Llama 4 Scout 和 Llama 4 Maverick,同时还有最强大的 Llama 4 Behemoth预览

下面给大家第一时间做个梳理,

? Llama 4 Scout:

定位:性能最强的小尺寸模型

参数:17B 激活参数,16 个专家,总参数量 109B

亮点:速度极快,原生支持多模态,拥有业界领先的 1000 万+ Token 多模态上下文窗口(相当于处理 20 多个小时的视频!),并且能在单张 H100 GPU 上运行(Int4 量化后)

? Llama 4 Maverick:

定位:同级别中最佳的多模态模型

性能:在多个主流基准测试中击败了 GPT-4o 和 Gemini 2.0 Flash,推理和编码能力与新发布的 DeepSeek v3 相当,但激活参数量不到后者一半

参数:17B 激活参数,128 个专家,总参数量 400B,上下文窗口 100 万+

性价比:提供了同类最佳的性能成本比。其实验性聊天版本在 LMArena 上 ELO 评分达到 1417,排名第二

部署:可以在单个主机上运行

? Llama 4 Behemoth (预览,训练中):

定位:Meta 迄今最强模型,全球顶级 LLM 之一

性能:在多个 STEM 基准上优于 GPT-4.5、Claude Sonnet 3.7 和 Gemini 2.0 Pro

参数:288B 激活参数,16 个专家,总参数量高达2万亿 (2T

训练细节:使用 FP8 精度,在 32000 块 GPU 上训练了 30 万亿 多模态 Token

角色:作为 Maverick 模型进行代码蒸馏时的教师模型

技术亮点解读

原生多模态:所有模型都采用早期融合(early fusion)策略,将文本、图像、视频 Token 无缝整合到统一的模型骨干中

训练流程优化:采用了 轻量级 SFT → 在线 RL → 轻量级 DPO 的后训练流程。开发者强调,过度使用 SFT/DPO 会过度约束模型,限制在线 RL 阶段的探索能力,所以要保持“轻量”

超长上下文的秘密 (10M+):实现这一突破的关键是 iRoPE 架构("i" 代表 interleaved layers, infinite)

核心思想:通过追求无限上下文的目标来指导架构设计,特别是利用长度外推能力——在短序列上训练,泛化到极长序列。最大训练长度是 256K

具体做法

  • • 本地注意力层(Local Attention)使用 RoPE 处理短上下文(如 8K),可并行化
  • • 全局注意力层(Global Attention)才负责处理长上下文(>8K),且不使用位置编码(NoPE 思想),这有助于提升外推能力
  • • 为了解决上下文变长时注意力权重趋于平坦、影响推理的问题,在推理时对全局层应用温度缩放,增强长距离推理,同时保持短上下文性能。公式大致为:xq *= 1 + log(floor(i / α) + 1) * β(i 是位置索引)

大佬评价:

一个遗憾 (前kaggle总裁,fast AI 创始人Jeremy Howard):虽然感谢开源,但 Jeremy Howard 也表达了失望。Llama 4 Scout 和 Maverick 都是大型 MoE 模型,即使量化后也无法在消费级 GPU 上运行,这对开源社区的可及性来说是个不小的损失

Jim Fan(英伟达高级研究经理)

部署便利性优先:Jim Fan 认为,对于开源模型,特别是 MoE 架构,易于部署正变得比单纯追求模型尺寸更重要。Meta 强调 Llama 4 Scout 能在单张 H100 上运行,这与 Llama-3 401B(虽然强大但采用率较低)形成对比,说明 MoE 是一个更符合当前开源策略的方向

智能调参 MetaP:MetaP这个用于智能调整训练超参数的新技术。虽然细节不多,但他猜测这可能类似于 Meta 开源的 Ax 框架中的贝叶斯优化,能在有限的试验预算内进行自适应实验(如 A/B 测试)

后训练策略:重 RL 轻 SFT/DPO: Llama 4 的后训练策略是降低 SFT/DPO 的权重,提升在线 RL 的权重。原因是过多的 SFT/DPO 会过度约束模型,限制其在 RL 阶段的探索能力

自我批判式数据筛选:一个有趣的技术点是,训练过程中模型较早的检查点(checkpoint)可以作为“批评家”来评估后续模型,帮助过滤掉过于简单的训练样本/提示,让模型在不断筛选和学习中变得更强

Behemoth 的训练细节与数据挑战: Llama 4 Behemoth 的庞大规模(FP8 精度、32K GPU、30T tokens 训练)。由于模型能力太强,普通的 SFT 数据对它来说太“简单”了,因此需要裁剪掉高达 95% 的 SFT 数据,而小模型只需要裁剪约 50%

实现千万级上下文窗口的技术手段看起来“相当简单”:

  1. 1. 去除部分位置编码:在某些注意力层(特别是全局层)不使用位置编码,借鉴了 NoPE (No Positional Embedding) 论文的思想
  2. 2. 调整 Softmax 注意力:根据上下文的长度来调整 Softmax 注意力计算

写在最后

这次Llama 4的推理模型还不见踪影,这多少有点说不过去,大家觉得呢?毕竟Meta也是妥妥的大厂啊!不过Meta 表示这只是开始,后续还有更多模型,团队正在全力开发中,特别提到了 Llama 4 Reasoning 模型

另外相比于DeepSeekMIT开源方式,Llama 4 的新许可证有几个限制: 

 - 每月活跃用户超过 7 亿的公司必须向 Meta 申请特殊许可,Meta 可自行决定授予或拒绝该许可。 

 - 必须在网站、界面、文档等处突出显示“使用 Llama 构建”。 

 - 使用 Llama Materials 创建的任何 AI 模型的名称开头都必须包含“Llama”

  - 必须在任何分发的“通知”文本文件中包含具体的归属通知  - 使用必须遵守 Meta 单独的可接受使用政策(参考 http://llama.com/llama4/use-policy...)  - 仅出于符合品牌要求的有限许可使用“Llama”名称

参考:

https://ai.meta.com/blog/llama-4-multimodal-intelligence/

 



⭐星标AI寒武纪,好内容不错过

用你的在看告诉我~




求赞??


53AI,企业落地大模型首选服务商

产品:场景落地咨询+大模型应用平台+行业解决方案

承诺:免费场景POC验证,效果验证后签署服务协议。零风险落地应用大模型,已交付160+中大型企业

联系我们

售前咨询
186 6662 7370
预约演示
185 8882 0121

微信扫码

添加专属顾问

回到顶部

加载中...

扫码咨询