微信扫码
添加专属顾问
我要投稿
Llama 4 的发布,标志着 AI 模型的新阶段,与 DeepSeek 技术报告有着惊人的相似之处。 核心内容: 1. Llama 4 通过三款不同模型实现任务专精化 2. 从 Dense 到 MoE 架构的转变,提升模型效率与能力 3. 原生多模态架构带来的性能提升与成本降低
Llama 4 发布了。
https://huggingface.co/meta-llama
但这次,它没有高调宣称参数量“遥遥领先“,而是通过三款模型来重新布局:
一个用、一主力、一教学,不卷彼此,也不试图通吃所有任务。
讲道理,看这个发布的时候,我总隐隐有当时读 DeepSeek V3 技术报告的感觉:拥抱 MoE,拥抱合成数据
Lllma 3 是 Dense,哪怕 400B 的模型都是 Dense;而 Llama 4 是 MoE 架构。
(关于架构的问题,推荐阅读:「大,就聪明吗?」)
过去,MoE 更多还是“实验室选项”,自 DeepSeek 大火后,很多厂商开始尝试将其用于主力模型,比如这次的 Meta。在 Llama 4 中,模型 Scout 配置 16 专家,而 Maverick 则是 128 专家,推理时都只激活两个,17B的量。
回顾一下,DeepSeek 在 R1 和 V3 中也是类似:671B 总参数,37B 激活,用更可控的计算开销,换来模型能力密度的提升。
当然,得说一下,MoE 并不适合所有任务场景,也存在调度复杂、专家平衡等训练难题。但它至少打开了一个现实维度:参数使用方式,和参数数量本身一样值得被设计。
Llama 3 时代,图像输入依赖外挂 encoder,与语言模型拼接;Llama 4 时代,图像直接作为 token 输入,参与语言上下文建模。
这意味着:图文不是模型之后拼出来的,而是在训练中就一体建模的语境单位。
这种结构带来的提升,在任务表现中非常直接:
而原生多模态架构也体现在 Scout 身上——虽然是轻量模型,但在 DocVQA、ChartQA 上,Scout 依然打出了高于同尺寸模型(甚至部分大模型)的稳定表现。
此处说一下, DeepSeek 的 V3/R1 仍未引入图像 token
Behemoth 最大号的 Llama4,很强,但它不对外。
Behemoth的全部作用,是生成训练数据,为 Scout 和 Maverick 提供能力示范,并通过轻量 DPO 和 RLHF 进一步优化行为。换句话说,Meta 并不再执着于“最强模型”上线,而是选择把最大资源投入到训练系统本身。
这个事儿,有点像:
在我看来,Llama 4 并没有带来参数最大、能力最强的单点突破。但它用一个更完整、更分工明确的体系,回应了模型设计正在发生的变化:
Scout 是部署,Maverick 是交付,Behemoth 是理解力的源头
与其说是一次产品发布,更像是宣告一次路线调整。
53AI,企业落地大模型首选服务商
产品:场景落地咨询+大模型应用平台+行业解决方案
承诺:免费场景POC验证,效果验证后签署服务协议。零风险落地应用大模型,已交付160+中大型企业
2025-04-07
高德、腾讯、百度地图布局 MCP Server 对比分析
2025-04-07
大模型的分类及技术指标
2025-04-07
警惕“技术名词崇拜”,回归实际需求--伪AI产品盘点
2025-04-07
伯克利最新研究:为什么多 Agent 系统总是“高期待、低表现”?
2025-04-07
可观测性成为ML和LLM应用的最大挑战
2025-04-07
刚刚,DeepSeek公布推理时Scaling新论文,R2要来了?
2025-04-07
谷歌随OpenAI强势入局,劈柴4天闪电部署Gemini+MCP!
2025-04-07
AutoGLM 发布之后,如今国产大模型终于长出了手。
2024-08-13
2024-06-13
2024-08-21
2024-09-23
2024-07-31
2024-05-28
2024-08-04
2024-04-26
2024-07-09
2024-09-17
2025-04-07
2025-04-07
2025-04-07
2025-04-06
2025-04-06
2025-04-05
2025-04-02
2025-04-02