我要投稿

谷歌开源Gemma-3：媲美DeepSeek，算力暴降10倍

发布日期：2025-03-13 07:30:34 浏览次数： 1995 作者：AIGC开放社区

昨晚，谷歌CEO Sundar Pichai宣布，开源最新多模态大模型Gemma-3，主打低成本高性能。

Gemma-3共有10亿、40亿、120亿和270亿四种参数。但即便最大的270亿参数，只需要一张H100就能高效推理，同类模型要达到这个效果最少要提升10倍算力，也是目前最强小参数模型。

根据盲测LMSYS ChatbotArena数据显示，Gemma-3仅次于DeepSeek的R1-671B，高于OpenAI的o3-mini，Llama3-405B等知名模型。

DeepSeek的R1是相当有排面，国内外发布高性能低成本模型时都得和它比较一下。其实，前几天阿里也开源了一个比肩R1，参数大降20倍的QwQ-32B模型。现在谷歌也要开始卷低成本模型了。

开源地址：https://huggingface.co/collections/google/gemma-3-release-67c6c6f89c4f76621268bb6d

Gemma-3架构与技术亮点

在架构设计上，Gemma-3采用了与前两代一样的通用解码器Transformer架构，但进行了众多创新和优化。

为了应对长上下文带来的内存爆炸难题，Gemma-3采用了局部和全局自注意力层交错的架构，每5个局部层之间插入1个全局层，局部层的跨度仅为1024个token。因为只有全局层负责处理长上下文，局部层仅关注1024个token的小跨度，从而降低了内存占用。

为了支持长上下文，Gemma-3模型将上下文长度扩展到了128Ktoken（10亿参数模型为32K）。模型提高了全局自注意力层的RoPE基础频率，从10k提升到1M，而局部层频率保持在10k。

同时，采用了类似位置插值的方法来扩展全局自注意力层的跨度，使模型在长上下文场景下能够更好地捕捉信息提升性能。

多模态能力是Gemma-3的一大技术亮点，能够同时处理文本和图像。还集成了定制版的SigLIP视觉编码器，这是一个基于VisionTransformer的编码器，通过CLIP损失的变体进行训练。

为了降低图像处理的推理成本，Gemma-3采用了创新的图像嵌入压缩技术，将视觉嵌入压缩为固定大小的256个向量，从而在不损失关键信息的前提下，显著减少了计算资源的消耗。

Gemma-3还引入了Pan&Scan方法，允许模型灵活处理不同分辨率和宽高比的图像。在实际应用中，Pan&Scan通过将图像分割成多个固定大小的区域，并将这些区域调整到统一的分辨率后输入编码器，从而避免了因图像尺寸不一致而导致的信息丢失或变形问题。这种灵活的图像处理方式不仅提高了模型对图像内容的理解能力，还使其在处理复杂图像场景时表现得更加出色。

高效训练过程

在预训练阶段，Gemma-3采用了与Gemma 2相似的方法并融入新的改进。为适应图像和文本混合数据的训练需求，模型使用了比Gemma 2更大的token预算。

270亿参数的模型训练使用14Ttoken，120亿参数模型使用12T，40亿参数模型使用4T，10亿参数模型使用2T。

同时，增加了多语言数据，包括单语和并行数据，并借鉴特定策略处理语言表示不平衡的问题，以此提升模型的语言覆盖范围和多语言处理能力。所以，Gemma-3支持140种语言，其中35种语言开箱即用。