微信扫码
添加专属顾问
我要投稿
Meta Llama 4系列模型,引领多模态AI新纪元。 核心内容: 1. Llama 4系列模型发布,包含Scout、Maverick及即将发布的Behemoth 2. 原生多模态能力与混合专家架构,提升效率与运算性能 3. iRoPE架构实现无限上下文支持,增强长文本处理能力
关注我们
今天,Meta发布Llama 4系列模型,包括两款高效模型Llama 4 Scout、Llama 4 Maverick,以及即将的新教师模型——Llama 4 Behemoth。
其中,Llama4 Scout支持1000万token的超长上下文窗口,为多文档摘要、解析广泛用户活动以实现个性化任务以及推理庞大代码库等应用提供了更多可能性。
此外,Llama4系列还整合了文本、图像和视频的统一框架,使其具备原生多模态能力。
它采用了混合专家(MoE)架构,提高了训练和回答用户查询时的效率。这种架构通过将数据处理任务分解为子任务,并委派给更小的、专门的“专家”模型,从而提升了整体的运算效率。
在基准测试里面,Llama 4 Maverick 超越了同类性的模型,比如GPT-4o以及4.5预览版、DeepSeek v3.1以及R1模型,将谷歌的Gemini 2.0 Flash远远甩在身后。
接下来将带你详细了解本次llama4模型的新特性。
技术背景
Llama4 是 Meta 于 今日发布的新一代开源大语言模型系列,标志着其在多模态 AI 领域的重要突破。
该系列包含三款模型:Scout(通用型,支持超长上下文)、Maverick(高性能多模态)和 Behemoth(万亿级参数巨模型,尚未发布)。
其主要目标是通过技术创新推动开源生态发展,同时提升模型在复杂任务中的实用性,例如长文本处理、跨模态推理及企业级应用。
核心技术架构
混合专家(MoE,Mixture of Experts)架构
Llama4系列AI模型是Meta公司推出的最新产品,它采用了混合专家(MoE,Mixture of Experts)架构,这是一种在训练和回答用户查询时效率更高的架构。
混合专家架构的核心思想是将数据处理任务分解为多个子任务,并将这些任务交给不同的小型“专家”模型进行处理,从而有效提升了模型在训练和回答用户查询时的效率。
例如,Llama4Maverick模型总共有4000亿个参数,但在128个“专家”模型中只有170亿个活跃参数。这种架构使得模型在处理特定任务时,只需激活相关的专家模型,从而减少不必要的计算资源浪费,提高整体的运算效率。
此外,Llama4系列模型是Meta首批使用混合专家架构的模型,这种架构在训练和推理时的计算效率更高,并且在相同的训练FLOPs预算下,能够生成更高质量的结果。
iRoPE 架构:无限上下文支持
Llama4系列中的iRoPE架构(Interleaved Rotary Position Embeddings)是其实现无限上下文支持的关键技术。
iRoPE架构通过使用交错注意力层,而不依赖于位置嵌入,来增强模型处理长上下文的能力。这种架构在推理时采用了温度缩放注意力,以增强长度泛化能力。其中“i”代表“交错”(interleaved)注意力层,突出了支持“无限”上下文长度的长期目标,“RoPE”则指的是在大多数层中使用的旋转位置嵌入(Rotary Position Embeddings)。
Llama4架构的一个关键创新是使用没有位置嵌入的交错注意层。此外,Meta采用注意力的推理时间温度缩放来增强长度泛化,并称之为iRoPE架构。Llama4 Scout将支持的上下文长度从Llama 3中的128K大幅增加到行业领先的1000万个token,适用于多文档摘要、解析大量用户活动以执行个性化任务以及对庞大的代码库进行推理。
此外,Llama4架构的设计思想是通过追求无限上下文的目标来指导架构设计,特别是利用长度外推能力——在短序列上训练,泛化到极长序列。最大训练长度是256K。
具体做法包括本地注意力层(Local Attention)使用RoPE处理短上下文(如8K),可并行化,而全局注意力层(Global Attention)负责处理长上下文(>8K),且不使用位置编码(NoPE思想),这有助于提升外推能力。
为了解决上下文变长时注意力权重趋于平坦、影响推理的问题,在推理时对全局层应用温度缩放,增强长距离推理,同时保持短上下文性能。
原生多模态融合
Llama 4采用了原生多模态设计,能够处理和整合各种类型的数据,包括文本、视频、图像和音频,并且可以在这些格式之间转换内容。
采用早期融合技术,能将文本和视觉 token 无缝整合到一个统一的模型框架里。可以用海量的无标签文本、图片和视频数据一起来预训练模型。这种设计使得Llama 4在处理多模态任务时,如图文检索、视觉问答(VQA)等场景,表现出色。
如下,Llama 4 Scout 在编码、推理、长上下文和图像基准测试方面也超过了同类模型,提供了比之前所有 Llama 模型更强的性能。
此外,Llama 4还改进了基于MetaCLIP的视觉编码器,编码器基于 MetaCLIP,在训练时跟一个冻结的 Llama 模型分开进行,能更好地调整编码器,更适配大语言模型(LLM)。
Llama 4的训练优化技术体现在多个方面,包括模型超参数优化、高效的模型训练以及后训练流程优化。
Llama 4采用了MetaP超参数优化技术,这是一种新的训练方法,可以更可靠地设置关键的模型超参数,例如每层学习率和初始化尺度。这些精心挑选的超参数在不同的批大小、模型宽度、深度和训练token量上都能很好地适配。
Llama 4在训练过程中采用了FP8精度,这种精度既保证了模型的高FLOPs利用率,又确保了模型质量不受影响。例如,在预训练Llama 4 Behemoth模型时,达到了每个GPU 390 TFLOPs的性能。
Llama 4的后训练流程优化采用了轻量级监督微调(SFT)→在线强化学习(RL)→轻量级直接偏好优化(DPO)的流程。这种流程旨在解决SFT和DPO可能过度限制模型的问题,通过移除超过50%被标记为“简单”的数据,对剩余更难数据进行轻量级SFT,在多模态在线RL阶段精心选择更难的提示,并实施持续在线RL策略,交替进行模型训练和数据筛选,保留中等到高难度的提示,最后进行轻量级DPO,平衡模型的智能性和对话能力。
Llama4系列模型
模型下载地址:
Scout:超长上下文处理
适用于多文档摘要、用户行为分析(如个性化推荐)、大型代码库推理。
支持单GPU(H100)运行,降低中小开发者硬件门槛。
专注于超长上下文处理,适合需要处理大量连续文本数据的应用。Llama 4 Scout 支持最长 1000万tokens 上下文窗口,使用创新架构 iRoPE(interleaved Rotary Position Embedding)。
Maverick:多模态与创意任务
图像精准定位(如视觉概念对齐)、创意写作、通用对话场景。Llama 4 Maverick在图像精准理解和创意写作方面表现突出,特别适合通用助手、聊天类应用场景。
在多语言处理与复杂图像任务(如生成)方面弱于GPT-4o和Gemini 2.0。
在基准测试中,其编码推理能力与DeepSeek V3相当,参数效率提升50%。
Behemoth:万亿级参数巨模型
作为未来模型的“教师模型”,用于复杂任务训练与知识蒸馏,参数量近2万亿,需32,000块GPU集群支持。
可能解锁AI工程代理(如自动化编码与问题解决),被视为Meta争夺技术制高点的关键。
在多个 STEM 基准上优于 GPT-4.5、Claude Sonnet 3.7 和 Gemini 2.0 Pro。
这三个模型各有侧重点,Scout适合需要处理大量文本数据的应用,Maverick适合多模态和创意任务,而Behemoth则专注于大规模参数模型和复杂任务处理。开发者可以根据具体需求选择合适的模型。
Llama 4的安全与创新
在Llama 4的开发过程中,Meta始终将安全性和实用性放在首位。遵循AI保护的最佳实践,从训练前的数据筛选到训练后的策略调整,再到为开发者提供可调的系统级缓解措施,我们致力于构建一个既强大又安全的模型。
训练前后的安全措施
在预训练阶段,结合数据筛选和其他缓解措施来保护模型。训练后应用一系列技术确保模型符合安全策略,包括在每个阶段维持适当的安全数据级别。
系统级保护
开源了几项保护措施,如Llama Guard、Prompt Guard和CyberSecEval,这些工具可以帮助识别和防范有害的输入和输出。鼓励开发者根据自己的需求定制这些工具,以创建最安全、最有效的体验。
评估与红队测试
通过系统测试和红队测试来评估模型的安全性,开发了生成式攻击性代理测试(GOAT),通过模拟对抗行为者的多轮交互来提高测试覆盖率和漏洞发现速度。
解决LLMs的偏见问题
大型语言模型存在偏见问题,为了消除这些偏见,确保Llama 4能够理解和阐明有争议问题的双方。Meta已经取得了显著进展,Llama 4在处理有争议话题时的拒绝率和回答平衡性都有了显著改善。
探索Llama生态系统
Llama 4不仅是一个智能模型,还是一个更大生态系统的一部分,Meta专注于整个技术栈,包括新产品集成。期待与合作伙伴和开源社区一起,探索Llama生态系统中的新体验。
53AI,企业落地大模型首选服务商
产品:场景落地咨询+大模型应用平台+行业解决方案
承诺:免费场景POC验证,效果验证后签署服务协议。零风险落地应用大模型,已交付160+中大型企业
2025-04-07
GitHub开源最强MCP客户端指南!手把手教你玩转AI交互!
2025-04-07
斯坦福团队开源!OpenVLA:小白也能搞机器人,100条数据就能微调!
2025-04-07
9000 字详细解读阿里万象 2.1(Wan2.1)最新技术报告
2025-04-07
实测Llama 4,究竟是王者归来,还是廉颇老矣?
2025-04-07
【AI启示录】2025 w14:文档集 + 规则库 + 循环迭代 = 好的氛围编程
2025-04-06
vllm近期更新的一些trick总结
2025-04-06
字节跳动开源神器Agent TARS,AI自动化时代真来了
2025-04-06
一文读懂开源 Llama 4 模型
2025-01-01
2024-07-25
2025-01-21
2024-05-06
2024-09-20
2024-07-20
2024-06-12
2024-07-11
2024-08-13
2024-12-26
2025-04-07
2025-04-03
2025-04-03
2025-04-03
2025-04-01
2025-03-31
2025-03-25
2025-03-25