AI知识库

53AI知识库

学习大模型的前沿技术与行业应用场景


谷歌开源模型Gemma 3,部署效率完胜DeepSeek-V3/R1

发布日期:2025-03-13 02:03:12 浏览次数: 1528 来源:未尽研究
推荐语

谷歌开源模型Gemma 3强势来袭,部署效率超越DeepSeek-V3/R1。

核心内容:
1. Gemma 3基于Gemini 2.0技术,提供1B-27B不同规模模型选择
2. 单GPU或TPU即可部署,支持多模态推理,128k token窗口
3. 支持35+种语言,训练使用6144张TPUv5P卡,无需GPU

杨芳贤
53A创始人/腾讯云(TVP)最具价值专家

谷歌发布了开源模型Gemma 3。在部署效率上完胜DeepSeek-V3/R1。
下图评分排名中,圆点表示估算的英伟达 H100 GPU 需求。Gemma 3 27B 排名较高,仅需一块 GPU(TPU也可),而DeepSeek-V3/R1模型各需要32 块。
下面是它的八大亮点:

1,基于 Gemini 2.0 技术打造 。

2,全家桶:1B、4B、12B 和 27B。

3,“世界上最好的单芯片模型”(单 GPU 或 TPU )。

4,最好的非推理开源模型:LMArena 表现优于 Llama-405B、DeepSeek-V3 和 o3-mini,仅次于DeepSeek R1。

5,多模态:拥有“高级文本和视觉推理能力”,可以在 4B+ 规模上“分析图像、文本和短视频”。

6,128k token上下文窗口,开箱即用。

7,支持超过 35 种语言,预训练支持超过 140 种语言。

8,无需GPU:训练27B用了6144张TPUv5P卡。

整个训练没有用GPU卡。
关于训练成本,技术报告称每种模型配置都经过优化,以最小化训练步骤的时间。对于视觉编码器(vision encoder),预先计算每张图片的嵌入(embeddings),并直接使用这些嵌入进行训练,因此不会增加语言模型的训练成本。但报告并没有给出具体的训练成本金额。
Gemma-3 27B是一个密集模型,打败了DeepSeek-V3 671B/37B,成为非推理开源模型第一,但不及推理的DeepSeek-R1。与那些前沿闭源大模型同台竞技,它也能打入前十。

(对 Gemma 3 27B IT 模型在 Chatbot Arena 中的评估(Chiang 等,2024)。所有模型均通过盲测进行对比评估,由人工评审员以并排对比的方式进行评分。每个模型的评分基于 Elo 评级系统。Gemma-3-27B-IT 的数据为初步结果,于 2025 年 3 月 8 日 收到。)

关于训练数据,Gemma-3 27B 训练了 14 万亿tokens,12B 版本训练了 12万亿 tokens,4B 版本训练了 4万亿 tokens,1B 版本训练了 2万亿tokens。训练 token 数量的增加是为了适应图像与文本混合数据在预训练过程中的使用。此外,还增加了多语言数据的比例,以提升语言覆盖范围。引入了单语数据(monolingual data)和平行数据(parallel data),并采用了一种受Chung 等(2023)启发的策略,以处理不同语言数据的分布不均衡问题。
谷歌有从一开始就有比较明确的开源想法,即发布专有的前沿模型Gemini的同时,发布开源的小模型Gemma,用于在安卓操作系统的端侧部署。这次体现了一贯思路,Gemma 3目前成为最适于在端侧部署的开源模型。
目前为止,谷歌闭源大模型API使用成本及闭源模型部署效率均胜过DeepSeek-V3/R1。
接下来,等DeepSeek-R2尽快出手了。



53AI,企业落地大模型首选服务商

产品:场景落地咨询+大模型应用平台+行业解决方案

承诺:免费场景POC验证,效果验证后签署服务协议。零风险落地应用大模型,已交付160+中大型企业

联系我们

售前咨询
186 6662 7370
预约演示
185 8882 0121

微信扫码

添加专属顾问

回到顶部

加载中...

扫码咨询