我要投稿

谷歌深夜炸场：Gemini 2.5 震撼发布！号称世界最强“思考型”AI，各种测试大幅领先

发布日期：2025-03-26 08:36:43 浏览次数： 1728 作者：AI寒武纪

谷歌 DeepMind 正式推出了他们迄今为止最智能的AI模型——Gemini 2.5。这次发布的第一个版本是 Gemini 2.5 Pro 实验版 (Experimental)，谷歌称其为“思考型模型”，在多个主流基准测试中实现了大幅领先，尤其在推理和代码能力上表现惊人

划重点

谷歌长期探索提升AI推理能力的方法，比如强化学习（RL）和思维链（Chain-of-Thought）提示。之前的 Gemini 2.0 Flash Thinking 是首次尝试，而 Gemini 2.5 通过显著增强的基础模型和改进的后训练技术，将这种“思考”能力提升到了新高度，并直接内建到模型中。这意味着未来的谷歌模型将能更好地处理复杂问题，支持更强大的、具备上下文感知能力的AI智能体（Agents）

Gemini 2.5 Pro 实验版：性能炸裂，直接看数据！

这次的 2.5 Pro 实验版绝非浪得虚名，它在衡量人类偏好的 LMArena 排行榜上直接登顶，且优势显著，显示出其强大的能力和高质量的输出风格

以下是它在多个关键基准测试中的单次尝试（pass@1）成绩，对比了包括 OpenAI、Anthropic、Grok、DeepSeek 等友商模型（数据来源为谷歌官方及第三方榜单）：

核心亮点解读：

超强推理：在GPQA、AIME 2025 等高难度推理基准上表现卓越。特别是 Humanity's Last Exam 无工具 18.8% 的成绩

高级编码：相比 2.0 有巨大飞跃，擅长创建视觉效果好的Web应用、代码智能体应用、代码转换和编辑。在行业标准SWE-Bench Verified 上，使用自定义智能体设置达到 63.8%

继承并强化 Gemini 优势：

• 原生多模态：依然能理解文本、音频、图像、视频甚至代码库。
• 超长上下文窗口：发布即支持 100 万 token，性能优于前代，即将支持 200 万 token！处理海量数据和复杂信息源的能力更强

实测

我用三个提示测试了一下Gemini 2.5 Pro 的前端代码能力表现，总体感觉仅就前端来看Gemini 2.5 Pro不如deepseek v3 最新版,缺少了一些细节

提示1：帮我制作一个赛博朋克贪吃蛇游戏，在单个HTML中运行

Gemini 2.5 实现效果

作为对比，这是deepseek v3 0324

提示2：Create a single HTML file containing CSS and JavaScript to generate an animated weather card. The card should visually represent the following weather conditions with distinct animations: Wind: (e.g., moving clouds, swaying trees, or wind lines) Rain: (e.g., falling raindrops, puddles forming) Sun: (e.g., shining rays, bright background) Snow: (e.g., falling snowflakes, snow accumulating) Show all the weather card side by side The card should have a dark background. Provide all the HTML, CSS, and JavaScript code within this single file. The JavaScript should include a way to switch between the different weather conditions (e.g., a function or a set of buttons) to demonstrate the animations for each

Gemini 2.5 实现效果：