微信扫码
添加专属顾问
我要投稿
Google最新力作Gemma 3系列模型,轻量级、多模态、支持140+语言,性能超越DeepSeek V3!核心内容:1. Gemma 3系列模型的多模态能力和支持语言2. 模型的四种参数尺寸及其应用场景3. 模型架构、训练方法和资源部署的优势
Gemma是来自Google的一个轻量级模型系列,基于 Gemini 技术构建。2025年3月12日,也就是昨天,Google 发布了 Gemma 3,这是他们 Gemma 系列模型的新一代。Gemma 3模型是多模态的——可以处理文本和图像——并具有 128K的上下文窗口,支持超过140种语言。它们有1B、4B、12B 和27B参数大小的版本,在问答、摘要和推理等任务中表现出色,同时其紧凑的设计允许部署在资源有限的设备上。
谷歌自称评分高于deepseek v3,现在小模型越来越厉害了,前有qwq-32b,后有gemma3,再精简精简端侧运行似乎也没什么障碍。
HuggingFace Gemma3模型权重合集
Gemma 3 是 Google 最新的开放权重大型语言模型。它有四种尺寸,分别是 10 亿、40 亿、120 亿 和 270 亿 参数,包含基础(预训练)和指令调优版本。Gemma 3 支持 多模态! 4B亿、12B和 27B参数的模型可以处理 图像 和 文本,而1B参数的模型仅限于文本。
Ollma Gemma3模型权重合集
Gemma 3 支架了Gemma 系列的解码器专用Transformer架构,并在架构和训练上进行了化:
架构与 Gemma 2 的差异:
为了降低长上下的记忆体需求,Gemma 3 模型在架构中交错使用了局部滑动窗口自注意力层和全域自注意力层,比例为 5:1,即每 5 个局部层布局 1 个全域层。局部层的跨度被限制在 1024 个 token,只有全域处理层长。 这样做添加了更多滑动窗口,以减少 KV 缓存负担!实验表明 5:1 的比例效果最佳,而 7:1 也能正常工作。SWA 设为 1024,实验显示 1024 至 2048 之间的值均可行。
训练与后训练:
Gemma-3 使用 TPU 进行训练,并结合 Zero-3 类算法与 JAX。27B 版本在 14 万亿 tokens 上训练,12B 版本训练数据为 12T,4B 版本为 4T,1B 版本为 2T。所有版本在强化学习(RL)/后训练阶段都使用了蒸馏(distillation),每个 token 采样了 256 个 logits,来自更大的指令模型(具体不明,可能是闭源模型)。强化学习阶段采用 BOND、WARM 和 WARP 算法。
对话模板(Chat Template)调整:
现在对话模板强制包含 BOS(Begin of Sentence)起始标记!格式采用 <start_of_turn>user
和 <start_of_turn>model
。词汇表大小为 262K,使用 SentencePiece 分词器,支持拆分数字、保留空格,并具有字节回退机制(byte fallback)。
长上下文 & 视觉编码器(Vision Encoder):
训练过程中从 32K 上下文扩展到 128K,上下文旋转位置编码(RoPE)缩放因子为 8。视觉编码器采用“Pan & Scan”算法,固定分辨率为 896 × 896,并在推理时使用窗口化(windowing)以支持其他尺寸。
多语言支持为了让大型语言模型支持多种语言,预训练数据集包含了更多的语言。Gemma 3 的数据集包含 两倍 的多语言数据,以提高语言覆盖率。为了适应这些变化,分词器与 Gemini 2.0 相同。这是一个包含 262K 条目的 SentencePiece 分词器,并采用了过滤技术来降低模型产生危害或不安全输出的风险。新的分词器显著提高了对中文、日文和韩文文本的编码,但英文和代码的标记数量略有增加。
Google声称,Gemma 3 是「世界上最好的单加速器模型」,在配备单个GPU 的主机上的性能表现超越了Facebook 的Llama、DeepSeek 和OpenAI 等竞争对手。具体来说,Gemma 3 27B 在Chatbot Arena Elo 分数测试中排名第二,仅次于DeepSeek-R1。它超过了DeepSeek 的较小模型、DeepSeek v3、OpenAI 的o3-mini、Meta 的Llama-405B 和Mistral Large。
LMSys Elo 分数是一个数字,根据模型在双人竞赛中的表现(由人类偏好评判)来排名。
LMSYS Chatbot Arena的人类盲测评估中位居前十的 Gemma 3 27B IT 模型,超越了许多更大规模的开源模型,例如 DeepSeek-V3、LLaMA 3 405B 和 Qwen2.5–70B。
该图表根据Chatbot Arena Elo 分数对AI 模型进行排名;分数越高(顶部数字)表示用户偏好越高。圆点表示预估的NVIDIA H100 GPU 需求。 Gemma 3 27B 排名靠前,尽管其他模型需要多达32 个GPU,但它仅需单个GPU 即可运行。
在 LMSys Chatbot Arena 中,Gemma 3 27B IT 报告的 Elo 分数为 1339,并在包括领先封闭模型在内的前十名模型中排名。该分数与 o1-preview 相当,并且高于其他 非思维 开放模型。这个分数是在 Gemma 3 仅处理文本输入时获得的,就像表中的其他 LLM 一样。
在标准基准测试中,Gemma 3 IT模型在各项能力上都超越了Gemma 2 和 Gemini 2.0。Gemma 3 在 MMLU-Pro(27B: 67.5)、LiveCodeBench(27B: 29.7)和 Bird-SQL(27B: 54.4)等基准测试中表现出竞争力,与封闭的 Gemini 模型相比性能相当。GPQA Diamond(27B: 42.4)和 MATH(27B: 69.0)等测试突显了其推理和数学能力,而 FACTS Grounding(27B: 74.9)和 MMMU(27B: 64.9)则展示了其强大的事实接地能力。
Google表示,当前的Gemma 3 27B 已经处于帕累托最优点。
在 AI 领域,Pareto 甜点区(Pareto Frontier, Sweet Spot) 这个概念指的是在 计算资源(成本) 和 性能(效果) 之间的最佳平衡点。
研究团队进行了详细的消融实验,验证了局部/全域注意力层比例、滑动窗口大小、长上下文扩展、教师模型规模以及视觉编码解析器解析度等架构和训练策略对模型认知和记忆体占用的影响。实验结果证明了Gemma 3架构设计的有效性,特别是在降低KV-cache记忆体占用和支持长上下文方面的优势。
Gemma 3 通过增加“局部注意力层(local attention layers)”相较于全局注意力层(global attention layers)的比例,并缩短局部注意力的跨度(仅 1024 个 tokens),减少了长上下文时 KV 缓存爆炸问题。
Gemma 3作为Gemma系列的最新迭代,带来了以下几个关键的进步:
53AI,企业落地大模型首选服务商
产品:场景落地咨询+大模型应用平台+行业解决方案
承诺:免费场景POC验证,效果验证后签署服务协议。零风险落地应用大模型,已交付160+中大型企业
2025-03-13
喜讯!58同城灵犀大模型正式通过生成式人工智能服务备案
2025-03-13
谷歌开源Gemma-3:媲美DeepSeek,算力暴降10倍
2025-03-13
谷歌Gemma 3震撼发布:单GPU/TPU秒杀Llama-405B,最强轻量AI来了!
2025-03-13
谷歌突然开源Gemma 3!128K长上下文+多模态,碾压Llama 405B?
2025-03-13
单卡跑出27B性能!谷歌Gemma 3开源模型如何重新定义AI开发边界?
2025-03-13
刚刚,谷歌Gemma 3上线!单GPU最强多模态手机可跑,27B完胜o3-mini
2025-03-13
AI Agent 爆火,MCP 到底是啥
2025-03-13
谷歌开源模型Gemma 3,部署效率完胜DeepSeek-V3/R1
2025-01-01
2024-07-25
2024-05-06
2025-01-21
2024-09-20
2024-07-20
2024-06-12
2024-08-13
2024-07-11
2024-12-26
2025-03-13
2025-03-13
2025-03-08
2025-03-03
2025-03-02
2025-03-01
2025-02-26
2025-02-23