微信扫码
与创始人交个朋友
我要投稿
年末各家大模型产品之战再度升级,12月11日,Google在官网博客发布了其新一代AI模型Gemini 2.0系列的首款模型——Gemini 2.0 Flash实验版本。正如模型名称Flash描述的那样,该模型具有低延迟和高性能的特性,Google更是计划使其成为Google相关产品规模化应用的核心引擎。通过展示由Gemini 2.0原生多模态能力支持的原型,Google重点展示了其在智能代理研究方面的前沿探索,宣称Google产品“智能代理时代”的开启,这次的口号是“Introducing Gemini 2.0: our new AI model for the agentic era”。
这次发布的Gemini 2.0 Flash实验版本的核心升级如下:
如下图所示,Gemini 2.0 Flash在多个基准测试中表现优异,甚至超过了Gemini 1.5 Pro。这些特点使得Gemini 2.0 Flash不仅仅是一个更快速的版本,更是一个能够提供智能交互的强大平台,适用于复杂任务处理与实时响应。
虽然是实验版本的发布,Google已经计划将Gemini 2.0和Gemini 2.0 Flash应用于多个领域,包括但不限于:
这些应用展示了Gemini 2.0和2.0 Flash在提升效率和用户体验方面的巨大潜力。
除了模型本身,Google还在积极开发其他项目以扩展Gemini 2.0和2.0 Flash的能力,这些项目包括:
这些项目表明,Google正在通过不断创新和实验来推动AI技术的边界。
Gemini 2.0 Flash 现已作为实验模型通过 Google AI Studio 和 Vertex AI 中的 Gemini API 向开发者开放,支持多模态输入和文本输出,所有开发者均可使用,文本转语音和原生图像生成功能则向早期访问合作伙伴开放。预计在一月份将全面开放,并提供更多模型尺寸。
我常用的模型接口OpenRouter,也已经快速上架了Gemini 2.0 Flash的API调用,而且实验版本现阶段是免费的,所以我也赶紧上手测试了一番。
既然此次更新强调的是模型的Agentic能力,我决定祭出最强AI编程智能体Cline来测试Gemini 2.0 Flash的Agentic能力。Cline本来就是按照Agentic的思想来设计的,所以支持很多编程的工具,比如文件搜索、代码执行、文件操作等。虽不是为Gemini 2.0 Flash专门设计的,但也可以一定程度测试出Gemini 2.0 Flash的通用Agentic能力。
如下图所示,首先在Cline配置API Provider为OpenRouter,输入你的API Key,然后Model里选择gemini-2.0-flash-exp:free。
因为是免费的实验版本,测试的时候感觉有点限速,时不时会返回错误,所以我就把我测试的几个成功的案例分享给大家,有条件的朋友也可以自己去测试一下!
我首先询问它能使用哪些工具,下图是Gemini 2.0 Flash 的回答,和Cursor还有Windsurf那样的Agent工具非常类似。可以看到,API确实目前是免费的。
然后,我让他设计一个经典的扫雷游戏。这个游戏Claude 3.5 Sonnet肯定是一次完成的,Qwen-2.5-Coder需要人为指导几次才能完成任务,然后我测试的Gemini 2.0 Flash也是经过三次指导才完成任务。不过代码输出的速度确实很快,有点Flash的感觉!
完成的游戏界面如下图所示,还算中规中矩,和Qwen-2.5-Coder的能力差不多,肯定比Gemini 1.5 Flash强。
然后再是尝试设计人机对弈的五子棋游戏,模型倒是能理解人机对弈,但是实现的AI下棋算法就太随意了,截图如下,白色是AI,这完全没有任何策略。所以和Claude 3.5 Sonnet还是有距离。
目前在我的大模型编程能力测试中,能一次完整完成扫雷和五子棋的,只有Sonnet,行业标杆。Qwen和Flash都可以完成程序的基本框架,但是功能必须要人为引导才行,不然完不成任务,且引导次数类似。从使用的感受看,Flash的代码能力和Qwen应该是一个级别的,不过Flash是通用模型,支持多模态,而Qwen是专门为代码优化的,不支持多模态,所以综合能力,Flash会更好一点,但是Qwen是开源的,具体使用需要看成本和应用场景了。
总结来看,Gemini 2.0及其最新版本Gemini 2.0 Flash的发布相较于Gemini 1.5 Pro这一代的模型确实显著提升了性能,更实现了功能上的质的飞跃。未来,该模型在智能助手、数据分析和代码生成等多个领域肯定会有一席之地。
通过多模态能力和智能工具使用,Gemini 2.0 Flash为开发者提供了一个强大的平台,进一步推动了智能代理时代的到来。当然,Gemini 2.0 Flash不是第一个Agentic模型,Claude 3.5 Sonnet和GPT-4o等模型已经在AI Agent领域取得了不错的成绩,Gemini 2.0 Flash的发布,意味着Google也正式加入到AI Agent的激烈竞争中。
作为AI Agent的忠实拥趸,我还是很期待Gemini 2.0 Flash的正式版本能够早日发布,看看Google的AI Agent到底有多强。不知道我们的AI Agent军团是不是会又添一员猛将。
53AI,企业落地应用大模型首选服务商
产品:大模型应用平台+智能体定制开发+落地咨询服务
承诺:先做场景POC验证,看到效果再签署服务协议。零风险落地应用大模型,已交付160+中大型企业
2024-12-13
漫画 Transform: 手把手用数学公式推导
2024-12-13
谷歌从来就没有落后,这一波gemini 2.0可太牛了,贾维斯来了!
2024-12-13
大模型的发展历史及简要介绍
2024-12-13
OpenAI发布49页长文,讲述o1的安全机制
2024-12-13
小模型界o1来了:微软推出Phi-4,数学推理能力太逆天!14B模型击败GPT-4o!还印证了AI墙的一个重要推断
2024-12-13
生成式人工智能理性与价值对齐
2024-12-12
谷歌发布史诗级Gemini2.0,“Agent时代”最强大的AI模型,使用TPU训练。
2024-12-12
Google 深夜狙击 OpenAI:新 Agent 功能可以自己打开浏览器查资料了
2024-05-28
2024-04-26
2024-08-13
2024-08-21
2024-07-09
2024-04-11
2024-07-18
2024-08-04
2024-07-01
2024-10-25
2024-12-06
2024-12-03
2024-12-01
2024-11-29
2024-11-26
2024-11-25
2024-11-21
2024-11-18