我要投稿

Gemma 3 27B版本超越DeepSeek V3：技术要点分析！

发布日期：2025-03-13 02:07:40 浏览次数： 4086 作者：ChallengeHub

Gemma是来自Google的一个轻量级模型系列，基于 Gemini 技术构建。2025年3月12日，也就是昨天，Google 发布了 Gemma 3，这是他们 Gemma 系列模型的新一代。Gemma 3模型是多模态的——可以处理文本和图像——并具有 128K的上下文窗口，支持超过140种语言。它们有1B、4B、12B 和27B参数大小的版本，在问答、摘要和推理等任务中表现出色，同时其紧凑的设计允许部署在资源有限的设备上。

谷歌自称评分高于deepseek v3，现在小模型越来越厉害了，前有qwq-32b，后有gemma3，再精简精简端侧运行似乎也没什么障碍。

HuggingFace Gemma3模型权重合集

Gemma 3简介

Gemma 3 是 Google 最新的开放权重大型语言模型。它有四种尺寸，分别是 10 亿、40 亿、120 亿和 270 亿参数，包含基础（预训练）和指令调优版本。Gemma 3 支持多模态！ 4B亿、12B和 27B参数的模型可以处理图像和文本，而1B参数的模型仅限于文本。

项目官网：https://developers.googleblog.com/en/introducing-gemma3/
HuggingFace模型库：https://huggingface.co/collections/google/gemma-3-release-67c6c6f89c4f76621268bb6d
技术报告：https://storage.googleapis.com/deepmind-media/gemma/Gemma3Report.pdf
Ollma地址：https://ollama.com/library/gemma3

Ollma Gemma3模型权重合集

Gemma 3 的模型架构与训练方法

Gemma 3 支架了Gemma 系列的解码器专用Transformer架构，并在架构和训练上进行了化：

架构与 Gemma 2 的差异：
为了降低长上下的记忆体需求，Gemma 3 模型在架构中交错使用了局部滑动窗口自注意力层和全域自注意力层，比例为 5:1，即每 5 个局部层布局 1 个全域层。局部层的跨度被限制在 1024 个 token，只有全域处理层长。这样做添加了更多滑动窗口，以减少 KV 缓存负担！实验表明 5:1 的比例效果最佳，而 7:1 也能正常工作。SWA 设为 1024，实验显示 1024 至 2048 之间的值均可行。
训练与后训练：
Gemma-3 使用 TPU 进行训练，并结合 Zero-3 类算法与 JAX。27B 版本在 14 万亿 tokens 上训练，12B 版本训练数据为 12T，4B 版本为 4T，1B 版本为 2T。所有版本在强化学习（RL）/后训练阶段都使用了蒸馏（distillation），每个 token 采样了 256 个 logits，来自更大的指令模型（具体不明，可能是闭源模型）。强化学习阶段采用 BOND、WARM 和 WARP 算法。
对话模板（Chat Template）调整：
现在对话模板强制包含 BOS（Begin of Sentence）起始标记！格式采用 <start_of_turn>user 和 <start_of_turn>model。词汇表大小为 262K，使用 SentencePiece 分词器，支持拆分数字、保留空格，并具有字节回退机制（byte fallback）。
长上下文 & 视觉编码器（Vision Encoder）：
训练过程中从 32K 上下文扩展到 128K，上下文旋转位置编码（RoPE）缩放因子为 8。视觉编码器采用“Pan & Scan”算法，固定分辨率为 896 × 896，并在推理时使用窗口化（windowing）以支持其他尺寸。
多语言支持为了让大型语言模型支持多种语言，预训练数据集包含了更多的语言。Gemma 3 的数据集包含两倍的多语言数据，以提高语言覆盖率。为了适应这些变化，分词器与 Gemini 2.0 相同。这是一个包含 262K 条目的 SentencePiece 分词器，并采用了过滤技术来降低模型产生危害或不安全输出的风险。新的分词器显著提高了对中文、日文和韩文文本的编码，但英文和代码的标记数量略有增加。

Gemma 3性能以及评估

Google声称，Gemma 3 是「世界上最好的单加速器模型」，在配备单个GPU 的主机上的性能表现超越了Facebook 的Llama、DeepSeek 和OpenAI 等竞争对手。具体来说，Gemma 3 27B 在Chatbot Arena Elo 分数测试中排名第二，仅次于DeepSeek-R1。它超过了DeepSeek 的较小模型、DeepSeek v3、OpenAI 的o3-mini、Meta 的Llama-405B 和Mistral Large。

LMSYS Chatbot Arena评分

LMSys Elo 分数是一个数字，根据模型在双人竞赛中的表现（由人类偏好评判）来排名。

LMSYS Chatbot Arena的人类盲测评估中位居前十的 Gemma 3 27B IT 模型，超越了许多更大规模的开源模型，例如 DeepSeek-V3、LLaMA 3 405B 和 Qwen2.5–70B。

该图表根据Chatbot Arena Elo 分数对AI 模型进行排名；分数越高（顶部数字）表示用户偏好越高。圆点表示预估的NVIDIA H100 GPU 需求。 Gemma 3 27B 排名靠前，尽管其他模型需要多达32 个GPU，但它仅需单个GPU 即可运行。

在 LMSys Chatbot Arena 中，Gemma 3 27B IT 报告的 Elo 分数为 1339，并在包括领先封闭模型在内的前十名模型中排名。该分数与 o1-preview 相当，并且高于其他非思维开放模型。这个分数是在 Gemma 3 仅处理文本输入时获得的，就像表中的其他 LLM 一样。

标准基准测试

在标准基准测试中，Gemma 3 IT模型在各项能力上都超越了Gemma 2 和 Gemini 2.0。Gemma 3 在 MMLU-Pro（27B: 67.5）、LiveCodeBench（27B: 29.7）和 Bird-SQL（27B: 54.4）等基准测试中表现出竞争力，与封闭的 Gemini 模型相比性能相当。GPQA Diamond（27B: 42.4）和 MATH（27B: 69.0）等测试突显了其推理和数学能力，而 FACTS Grounding（27B: 74.9）和 MMMU（27B: 64.9）则展示了其强大的事实接地能力。

Gemma 3 27B 在 pareto 甜点区

Google表示，当前的Gemma 3 27B 已经处于帕累托最优点。

在 AI 领域，Pareto 甜点区（Pareto Frontier, Sweet Spot）这个概念指的是在计算资源（成本）和性能（效果）之间的最佳平衡点。

消融实验

研究团队进行了详细的消融实验，验证了局部/全域注意力层比例、滑动窗口大小、长上下文扩展、教师模型规模以及视觉编码解析器解析度等架构和训练策略对模型认知和记忆体占用的影响。实验结果证明了Gemma 3架构设计的有效性，特别是在降低KV-cache记忆体占用和支持长上下文方面的优势。

Gemma 3 通过增加“局部注意力层（local attention layers）”相较于全局注意力层（global attention layers）的比例，并缩短局部注意力的跨度（仅 1024 个 tokens），减少了长上下文时 KV 缓存爆炸问题。

Gemma 3总结

Gemma 3作为Gemma系列的最新迭代，带来了以下几个关键的进步：

多模态能力： Gemma 3整合了视觉理解能力，能够处理图像输入，扩展了模型的应用范围。它采用了SigLIP视觉编码器的客制化版本，将转换为模型可以理解的令牌序列。为了降低图像处理的成本，嵌入被压缩为固定大小，并采用Pan & Scan (P&S)方法来处理不同解析度的图像。
长上下文处理： Gemma 3 显着提升了上下文处理能力，支持至少 128K tokens 的长度，1B 模型也支持 32K tokens。为了应对长上下文带来的 KV-cache 记忆体爆炸问题，Gemma 3 采用了新的架构设计，增加了局部焦点层与全域焦点层的区域，并聚焦了局部焦点层的跨度，有效降低了记忆体占用。
更广泛的语言覆盖： Gemma 3在多语言能力方面进行了强化，重新调整了训练数据的组成，增加了多语言数据的比例，提升了模型在不同语言上的能力。
卓越的表现： Gemma 3 模型训练知识调整进行训练，在预和指令驱动版本上都表现出比 Gemma 2 更优异的表现。特别是，开发团队采用了创新的后期训练方法，显着提升了模型在数学、聊天、指令遵循和多语言能力方面的表现，使得 Gemma3–4B-IT 的相当漂亮 Gemma2–27B-IT，而 Gemma3–27B-IT 则可与Gemini-1.5-Pro 相提并论。
开源发布： Google DeepMind将所有Gemma 3模型开源发布，供社群使用，促进了AI技术的普及和发展。