微信扫码
添加专属顾问
我要投稿
谷歌开源Gemma-3,引领AIGC领域算力革命。核心内容:1. 谷歌开源Gemma-3,算力暴降10倍的多模态大模型2. Gemma-3的架构创新与技术亮点3. Gemma-3性能对比,仅次于DeepSeek的R1-671B
专注AIGC领域的专业社区,关注微软&OpenAI、百度文心一言、讯飞星火等大语言模型(LLM)的发展和应用落地,聚焦LLM的市场研究和AIGC开发者生态,欢迎关注!
昨晚,谷歌CEO Sundar Pichai宣布,开源最新多模态大模型Gemma-3,主打低成本高性能。
Gemma-3共有10亿、40亿、120亿和270亿四种参数。但即便最大的270亿参数,只需要一张H100就能高效推理,同类模型要达到这个效果最少要提升10倍算力,也是目前最强小参数模型。
根据盲测LMSYS ChatbotArena数据显示,Gemma-3仅次于DeepSeek的R1-671B,高于OpenAI的o3-mini,Llama3-405B等知名模型。
DeepSeek的R1是相当有排面,国内外发布高性能低成本模型时都得和它比较一下。其实,前几天阿里也开源了一个比肩R1,参数大降20倍的QwQ-32B模型。现在谷歌也要开始卷低成本模型了。
开源地址:https://huggingface.co/collections/google/gemma-3-release-67c6c6f89c4f76621268bb6d
Gemma-3架构与技术亮点
在架构设计上,Gemma-3采用了与前两代一样的通用解码器Transformer架构,但进行了众多创新和优化。
为了应对长上下文带来的内存爆炸难题,Gemma-3采用了局部和全局自注意力层交错的架构,每5个局部层之间插入1个全局层,局部层的跨度仅为1024个token。因为只有全局层负责处理长上下文,局部层仅关注1024个token的小跨度,从而降低了内存占用。
为了支持长上下文,Gemma-3模型将上下文长度扩展到了128Ktoken(10亿参数模型为32K)。模型提高了全局自注意力层的RoPE基础频率,从10k提升到1M,而局部层频率保持在10k。
同时,采用了类似位置插值的方法来扩展全局自注意力层的跨度,使模型在长上下文场景下能够更好地捕捉信息提升性能。
多模态能力是Gemma-3的一大技术亮点,能够同时处理文本和图像。还集成了定制版的SigLIP视觉编码器,这是一个基于VisionTransformer的编码器,通过CLIP损失的变体进行训练。
为了降低图像处理的推理成本,Gemma-3采用了创新的图像嵌入压缩技术,将视觉嵌入压缩为固定大小的256个向量,从而在不损失关键信息的前提下,显著减少了计算资源的消耗。
Gemma-3还引入了Pan&Scan方法,允许模型灵活处理不同分辨率和宽高比的图像。在实际应用中,Pan&Scan通过将图像分割成多个固定大小的区域,并将这些区域调整到统一的分辨率后输入编码器,从而避免了因图像尺寸不一致而导致的信息丢失或变形问题。这种灵活的图像处理方式不仅提高了模型对图像内容的理解能力,还使其在处理复杂图像场景时表现得更加出色。
高效训练过程
在预训练阶段,Gemma-3采用了与Gemma 2相似的方法并融入新的改进。为适应图像和文本混合数据的训练需求,模型使用了比Gemma 2更大的token预算。
270亿参数的模型训练使用14Ttoken,120亿参数模型使用12T,40亿参数模型使用4T,10亿参数模型使用2T。
同时,增加了多语言数据,包括单语和并行数据,并借鉴特定策略处理语言表示不平衡的问题,以此提升模型的语言覆盖范围和多语言处理能力。所以,Gemma-3支持140种语言,其中35种语言开箱即用。
Gemma-3使用与Gemini2.0相同的SentencePiece分词器,具备分割数字、保留空格和字节级编码的特性,生成的词汇表包含262k个条目,使得模型在处理非英语语言时更加平衡。
在训练优化上,Gemma-3运用知识蒸馏技术。每个token采样256个logits,按照教师概率进行加权,学生模型通过交叉熵损失来学习教师模型在这些样本中的分布。在这个过程中,对于未采样的logits,教师模型的目标分布被设为零概率并重新归一化,从而引导学生模型学习到更优的分布,提升模型的性能。
完成预训练后,Gemma-3进入后训练阶段,该阶段聚焦于提升模型的特定能力并整合新特性。后训练采用了改进版的知识蒸馏技术,从大型指令微调教师模型中获取知识,同时结合基于改进版BOND、WARM和WARP的强化学习微调阶段。
通过多种奖励函数来优化模型,这些奖励函数旨在提升模型的帮助性、数学能力、编码能力、推理能力、指令遵循能力和多语言能力,同时最小化模型产生有害输出的可能性。奖励来源包括从人类反馈数据训练的加权平均奖励模型、代码执行反馈以及解决数学问题的真实奖励等。
测试数据
为了测试Gemma-3的性能,谷歌在MGSM、Global-MMLU-Lite、WMT24++、RULER、MRCR等众多主流平台进行了评估。
结果显示,Gemma-3在多模态任务中表现出色,例如在DocVQA、InfoVQA和TextVQA等任务中,其性能显著优于前代模型。在长文本处理方面,Gemma-3的27B模型在RULER128K上达到了66.0%的准确率,展现了强大的长文本处理能力。
在多语言支持上,Gemma-3在MGSM和Global-MMLU-Lite等任务中也取得了优异成绩。在对话能力评估中,Gemma-3的27B指令调优版本在ChatbotArena中的Elo分数为1338,排名进入前10,接近DeepSeek-R1等大型模型。
本文素材来源谷歌,如有侵权请联系删除
END
53AI,企业落地大模型首选服务商
产品:场景落地咨询+大模型应用平台+行业解决方案
承诺:免费场景POC验证,效果验证后签署服务协议。零风险落地应用大模型,已交付160+中大型企业
2025-03-13
治理之智|模型蒸馏无需受法律限制,技术创新不宜过早下结论
2025-03-13
太快了!Open-Sora 2.0 重磅开源!
2025-03-13
手撕开源版Manus智能体
2025-03-13
2100元主机稳定运行谷歌Gemma3-27B大模型,一体机厂家要哭了!
2025-03-13
刚刚,OpenAI 重磅发布 Agent SDK!AI 开发范式彻底颠覆!
2025-03-13
刚刚, 谷歌 gemma3 开源
2025-03-13
喜讯!58同城灵犀大模型正式通过生成式人工智能服务备案
2025-03-13
谷歌Gemma 3震撼发布:单GPU/TPU秒杀Llama-405B,最强轻量AI来了!
2025-01-01
2024-07-25
2024-05-06
2025-01-21
2024-09-20
2024-07-20
2024-06-12
2024-08-13
2024-07-11
2024-12-26
2025-03-13
2025-03-13
2025-03-08
2025-03-03
2025-03-02
2025-03-01
2025-02-26
2025-02-23