微信扫码
添加专属顾问
我要投稿
Meta AI的最新力作Llama 4系列,引领多模态AI新纪元。 核心内容: 1. Llama 4系列模型的核心技术和性能表现 2. Llama 4 Scout、Maverick和Behemoth三款模型的特点对比 3. Llama 4在长文档问答、图片信息抽取等领域的应用实测
东风袅袅泛崇光,香雾空蒙月转廊。小伙伴们好,我是微信公众号<小窗幽记机器学习>的小编卖铁观音的小男孩。Meta AI 近日发布了其最新的 Llama 4 模型系列,开启原生多模态 AI 新纪元。该系列包括 Llama 4 Scout 和 Llama 4 Maverick 两款高效模型,以及作为教师模型的 Llama 4 Behemoth。这些模型旨在赋能开发者构建更具个性化的多模态体验,并在各自的规模级别上展现出卓越的性能。
相比于之前的模型,Llama 4系列模型是混合专家架构(MoE)的多模态模型,能够支持文本和多模态体验(输入支持文本和图片,但是输出结果尚未支持图片)。截至目前(4月6日)官方开放Llama 4系列的两个高效模型的下载。
1、Llama 4 Scout。
2、Llama 4 Maverick。
3、Llama 4 Behemoth。
更多大模型相关,欢迎关注微信公众号《小窗幽记机器学习》:
Llama 4 模型是 Meta 首批采用 混合专家 (MoE) 架构 的模型。在 MoE 模型中,每个输入 token 只会激活模型总参数中的一小部分。这种架构在训练和推理时都更加计算高效,并且在给定的计算预算下,能够产生比密集模型更高质量的结果。
Llama 4 模型系列被设计为 原生多模态,通过 早期融合 (early fusion) 将文本和视觉 tokens 无缝集成到统一的模型骨干中。 这种方法实现了模型在大量未标注的文本、图像和视频数据上的联合预训练。Llama 4 还改进了视觉编码器,该编码器基于 MetaCLIP,但与冻结的 Llama 模型联合训练,以更好地适应 LLM。
Llama 4 模型采用了改进的后训练流程,以平衡多模态输入、推理和对话能力。该流程包括:
从LiveCodeBench评测结果可以看出,Llama-4-Maverick-17B-128E (402B)代码能力不及DeepSeek-V3-0324。四个多模态测试(Image Reasoning MMLU, MathVista, Image understanding ChartQA, DocVQA)Llama-4-Scout-17B-16E (109B)和 Llama-4-Maverick-17B-128E (402B)都优于 GPT-4o。单纯从榜单来看的话,llama-4 应该是最好的开源多模态大模型。
训练拥有两万亿参数的模型带来了巨大的挑战,需要对训练流程进行全面革新。为了最大化性能,Llama 4 Behemoth 在后训练中需要剪枝 95% 的 SFT 数据,以确保对质量和效率的关注。 大规模强化学习 (RL) 也需要革新底层 RL 基础设施,Meta 团队优化了 MoE 并行化设计以提高速度,并开发了完全异步的在线 RL 训练框架,实现了约 10 倍的训练效率提升。
Meta 非常重视 Llama 4 模型的安全性和可靠性。
由于Scout和Maverick分别支持10M和1M的上下文,并支持输入图片。下面将基于长文档问答和图片理解任务进行实战评测。
输入文档:是一份产品使用说明书,这里随便选取荣耀70 Pro的用户手册文档荣耀70 Pro 用户手册-(Magic UI 6.1_01,zh-cn).pdf,答案所在原文段落如下:
输入文字:
怎么拍摄带有水印的照片?
具体使用的模型版本是Gemini 2.5 Pro Preview 03-25,输出结果如下:
输入图片:
输入文字:
基于这张图,帮我写一条朋友圈文案,要求富有诗意和人生哲理,字数<100。
具体使用的模型版本是Gemini 2.5 Pro Preview 03-25,输出结果如下:
好的,这里有几条供您选择:
选项一:
暮色温柔,繁花依旧。生命纵有黄昏时,亦可向光而行,从容绽放。
选项二:
夕阳熔金,玫瑰盛放。温柔了岁月,惊艳了时光。愿珍惜每一刻美好。
选项三:
落日余晖,花影婆娑。心若有景,何惧日晚风斜?安于当下,静待芬芳。
选项四:
花开向晚霞,温柔落心间。世事皆浮沉,唯美与心安不可负。
选项五:
赏一场落日,看一季花开。人间浪漫,不过是温柔的坚持与热爱。
希望这些文案能触动你!
输入图片:
输入文本:
以json格式输出抽取到的文字内容,key值"ocr_res",value值是抽取到的文字结果。
输入图片:
输入问题:
从Arena Score上看,Top 5分别是哪5个?
From the Arena Score, what are the top 5 best models?
根据图片中 "Arena Score" 这一列的数据,得分最高的 Top 5 模型分别是:
1. **Gemini-2.5-Pro-Exp-03-25** (Arena Score: 1439)
2. **Llama-4-Maverick-03-26-Experimental** (Arena Score: 1417)
3. **ChatGPT-4o-latest (2025-03-26)** (Arena Score: 1410)
4. **Grok-3-Preview-02-24** (Arena Score: 1403)
5. **GPT-4.5-Preview** (Arena Score: 1398)
Llama 4 模型系列的问世标志着 AI 领域的重大突破,其在模型架构、训练方法、多模态能力和安全性方面均展现出卓越水平。该系列引入的混合专家架构大幅提升了模型效率与性能,原生多模态集成为开发更加丰富的 AI 应用创造了条件,而千万级上下文窗口则为长序列数据处理提供了强大支持,这也使得 RAG 技术的应用范围受到一定挤压。
从实际应用效果来看,Llama 4 特别适合超长文档处理场景,如翻译、文档摘要和问答,以及各类多模态任务。不过,在中文环境下,Llama 4 的多模态处理能力仍显不足,比如,表格问答任务里面,同一张图片,使用英文提问的回答效果显著优于中文提问。中文多模态任务中,Llama 4与国产的 Qwen 2.5VL 系列相比有明显差距,因此在中文应用场景中还需进一步微调优化。
53AI,企业落地大模型首选服务商
产品:场景落地咨询+大模型应用平台+行业解决方案
承诺:免费场景POC验证,效果验证后签署服务协议。零风险落地应用大模型,已交付160+中大型企业
2025-04-07
GitHub开源最强MCP客户端指南!手把手教你玩转AI交互!
2025-04-07
斯坦福团队开源!OpenVLA:小白也能搞机器人,100条数据就能微调!
2025-04-07
9000 字详细解读阿里万象 2.1(Wan2.1)最新技术报告
2025-04-07
【AI启示录】2025 w14:文档集 + 规则库 + 循环迭代 = 好的氛围编程
2025-04-06
vllm近期更新的一些trick总结
2025-04-06
Meta Llama 4 全面解析:全新的原生多模态 AI
2025-04-06
字节跳动开源神器Agent TARS,AI自动化时代真来了
2025-04-06
一文读懂开源 Llama 4 模型
2025-01-01
2024-07-25
2025-01-21
2024-05-06
2024-09-20
2024-07-20
2024-06-12
2024-07-11
2024-08-13
2024-12-26
2025-04-07
2025-04-03
2025-04-03
2025-04-03
2025-04-01
2025-03-31
2025-03-25
2025-03-25