我要投稿

谷歌开源模型Gemma 3，部署效率完胜DeepSeek-V3/R1

发布日期：2025-03-13 02:03:12 浏览次数： 1933

作者：未尽研究

微信搜一搜，关注“未尽研究”

谷歌发布了开源模型Gemma 3。在部署效率上完胜DeepSeek-V3/R1。

下图评分排名中，圆点表示估算的英伟达 H100 GPU 需求。Gemma 3 27B 排名较高，仅需一块 GPU（TPU也可），而DeepSeek-V3/R1模型各需要32 块。

下面是它的八大亮点：

1，基于 Gemini 2.0 技术打造。

2，全家桶：1B、4B、12B 和 27B。

3，“世界上最好的单芯片模型”（单 GPU 或 TPU ）。

4，最好的非推理开源模型：LMArena 表现优于 Llama-405B、DeepSeek-V3 和 o3-mini，仅次于DeepSeek R1。

5，多模态：拥有“高级文本和视觉推理能力”，可以在 4B+ 规模上“分析图像、文本和短视频”。

6，128k token上下文窗口，开箱即用。

7，支持超过 35 种语言，预训练支持超过 140 种语言。

8，无需GPU：训练27B用了6144张TPUv5P卡。

整个训练没有用GPU卡。

关于训练成本，技术报告称每种模型配置都经过优化，以最小化训练步骤的时间。对于视觉编码器（vision encoder），预先计算每张图片的嵌入（embeddings），并直接使用这些嵌入进行训练，因此不会增加语言模型的训练成本。但报告并没有给出具体的训练成本金额。

Gemma-3 27B是一个密集模型，打败了DeepSeek-V3 671B/37B，成为非推理开源模型第一，但不及推理的DeepSeek-R1。与那些前沿闭源大模型同台竞技，它也能打入前十。

（对 Gemma 3 27B IT 模型在 Chatbot Arena 中的评估（Chiang 等，2024）。所有模型均通过盲测进行对比评估，由人工评审员以并排对比的方式进行评分。每个模型的评分基于 Elo 评级系统。Gemma-3-27B-IT 的数据为初步结果，于 2025 年 3 月 8 日收到。）

关于训练数据，Gemma-3 27B 训练了 14 万亿tokens，12B 版本训练了 12万亿 tokens，4B 版本训练了 4万亿 tokens，1B 版本训练了 2万亿tokens。训练 token 数量的增加是为了适应图像与文本混合数据在预训练过程中的使用。此外，还增加了多语言数据的比例，以提升语言覆盖范围。引入了单语数据（monolingual data）和平行数据（parallel data），并采用了一种受Chung 等（2023）启发的策略，以处理不同语言数据的分布不均衡问题。

谷歌有从一开始就有比较明确的开源想法，即发布专有的前沿模型Gemini的同时，发布开源的小模型Gemma，用于在安卓操作系统的端侧部署。这次体现了一贯思路，Gemma 3目前成为最适于在端侧部署的开源模型。

目前为止，谷歌闭源大模型API使用成本及闭源模型部署效率均胜过DeepSeek-V3/R1。

接下来，等DeepSeek-R2尽快出手了。