我要投稿

谷歌发布Gemini 2.0 Pro：多模态，编程能力炸裂，Jeff Dean惊呼，现在免费开放

发布日期：2025-02-06 13:54:46 浏览次数： 2430 作者：AI寒武纪

刚刚谷歌 DeepMind 宣布，Gemini 2.0 现已向所有人开放！本次发布带来了一系列更新和新模型，旨在为开发者和用户提供更强大、更快速、更具成本效益的 AI 体验，重点是推出了Gemini 2.0 Pro全新模型

AI大神Jeff Dean 盛赞 Gemini 2.0 Pro 的编程能力

谷歌首席科学家，人工智能大神 Jeff Dean 分享了他对 Gemini 2.0 Pro 编程能力的惊叹。他表示：“我喜欢 Boggle 游戏（一种填字游戏）。这个演示展示了我们的 Gemini 2.0 Pro 模型在 AI Studio 中的编码能力。令人难以置信的是，它可以通过一个相对简单的提示，编写出完整的代码，包括所有正确的数据结构和搜索算法，以在 Boggle 游戏板上找到所有有效的单词。作为一名计算机科学家，我也很高兴它第一次就正确地完成了数据结构。” 他还幽默地用了 "Discombobulating!" (令人困惑/震惊)来形容

看起来 Gemini 2.0 Pro 在代码生成方面的强大实力，即使是复杂的算法和数据结构也能轻松应对

主要亮点：

Gemini 2.0 Flash 全面可用： 12 月发布的实验性版本 Gemini 2.0 Flash 现已正式推出。这款高效的模型以低延迟和增强的性能著称，是开发者的理想选择。现在，开发者可以通过 Google AI Studio 和 Vertex AI 中的 Gemini API 构建生产级应用

Gemini 2.0 Pro Experimental 发布： 这是一款实验性的新模型，专为代码性能和复杂提示而优化。它在代码生成、理解复杂问题、推理能力方面表现出色，拥有高达 200 万个 token 的上下文窗口，能够分析和理解大量信息。Gemini Advanced 用户可以在 Gemini 应用中体验这款模型

Gemini 2.0 Flash-Lite 亮相： 这是 Gemini 2.0 系列中最具成本效益的模型。它在保持与 1.5 Flash 相同速度和成本的同时，提供了更高的质量，并在大多数基准测试中超越了 1.5 Flash。它同样支持 100 万 token 的上下文窗口和多模态输入

2.0 Flash Thinking Experimental 面向 Gemini 应用用户： 此前在 Google AI Studio 中提供的 2.0 Flash Thinking Experimental 模型现在也向 Gemini 应用用户开放，用户可以在桌面和移动端的模型下拉菜单中选择使用

多模态能力： 所有这些模型在发布时都将支持多模态输入（文本输出），并在未来几个月内提供更多模态的全面支持

模型性能对比：

谷歌提供了一个详细的表格，对比了 Gemini 1.5 Flash、1.5 Pro、2.0 Flash-Lite、2.0 Flash 和 2.0 Pro Experimental 在多个基准测试中的性能。以下是一些关键指标：

能力	基准测试	Gemini 1.5 Flash	Gemini 1.5 Pro	Gemini 2.0 Flash-Lite	Gemini 2.0 Flash	Gemini 2.0 Pro Experimental
通用	MMLU-Pro	67.3%	75.8%	71.6%	77.6%	79.1%
代码	LiveCodeBench (v5)	30.7%	34.2%	28.9%	34.5%	36.0%
	Bird-SQL (Dev)	45.6%	54.4%	57.4%	58.7%	59.3%
推理	GPQA (diamond)	51.0%	59.1%	51.5%	60.1%	64.7%
事实性	SimpleQA	8.6%	24.9%	21.7%	29.9%	44.3%
	FACTS Grounding	82.9%	80.0%	83.6%	84.6%	82.8%
多语言	Global MMLU (Lite)	73.7%	80.8%	78.2%	83.4%	86.5%
数学	MATH	77.9%	86.5%	86.8%	90.9%	91.8%
	HiddenMath	47.2%	52.0%	55.3%	63.5%	65.2%
长上下文	MRCR (1M)	71.9%	82.6%	58.0%	70.5%	74.7%
图像	MMMU	62.3%	65.9%	68.0%	71.7%	72.7%
音频	CoVoST2(21 lang)	37.4	40.1	38.4	39.0	40.6
视频	EgoSchema (test)	66.8%	71.2%	67.2%	71.1%	71.9%