微信扫码
与创始人交个朋友
我要投稿
作者:
Demis Hassabis, Google DeepMind CEO
Koray Kavukcuoglu, Google DeepMind CTO
代表 Gemini 团队
在过去一年中,我们在人工智能领域取得了巨大进步。今天,我们发布 Gemini 2.0 系列模型中的第一个模型:Gemini 2.0 Flash 的体验版。这是我们的主力模型,具有低延迟特性,而且在我们大规模技术前沿中展现了卓越的性能。
同时,我们还通过展示基于 Gemini 2.0 原生多模态功能的原型来分享我们关于智能体的前沿研究。
Gemini 2.0 Flash
Gemini 2.0 Flash 是建立在 1.5 Flash 的成功基础之上,而 1.5 Flash 是我们迄今为止最受开发者欢迎的版本。与 1.5 Flash 相比,Gemini 2.0 Flash 在同样快速的响应时间下性能进一步增强。值得一提的是,2.0 Flash 在关键基准测试中甚至超越了 1.5 Pro,其速度是 1.5 Pro 的两倍。同时 2.0 Flash 还具有新功能,除了能够支持图片、视频和音频等多模态输入,2.0 Flash 现在还可以支持多模态输出,例如可以直接生成图像与文本混合的内容,以及原生生成可控的多语言文本转语音(TTS)音频。它还可以原生调用 Google Search、代码执行以及第三方用户定义的函数等工具。
我们的目标是让人们能够更安全、快速地使用我们的模型。在过去一个月,我们分享了 Gemini 2.0 的早期体验版,并得到了开发者的积极反馈。
作为提供给开发者的体验版模型,Gemini 2.0 Flash 现在可以通过 Google AI Studio 和 Vertex AI 中的 Gemini API 获取,所有开发者均可使用多模态输入和文本输出,抢先体验的合作伙伴可使用原生文本转语音和图像生成功能。该产品将于 1 月份全面上市,届时将推出更多型号。
为了帮助开发者构建动态和交互式应用程序,我们还发布了新的 Multimodal Live API,它具有实时音频、视频流输入以及使用多个组合工具的能力。有关 2.0 Flash 和 Multimodal Live API 的更多信息,请参阅我们的开发者博客。
Gemini 2.0 应用于我们 AI 助手 Gemini app
同样从今天开始,全球的 Gemini 用户可以通过在电脑端和移动端网页的模型下拉菜单中进行选择,来开启基于2.0 Flash 体验版优化后的聊天对话,并且该版本将很快在 Gemini 移动应用中推出。同时,基于这个新模型,用户还可以体验到更加有用的 Gemini 助手。
明年初,我们还会将 Gemini 2.0 扩展到更多 Google 产品中。
解锁 Gemini 2.0 智能互动新体验
Gemini 2.0 Flash 的原生用户界面操作能力,以及多模态推理、长文本理解、复杂指令跟随和规划能力、组合函数的调用,原生工具使用以及延迟优化等一系列优化改进,共同促进了全新的、更智能化的交互体验。
AI 智能体在现实中的应用是一个令人振奋且充满可能性的研究领域。我们正在探索这个全新的领域,开发出了一系列原型,这些原型能够帮助人们完成任务,达成相应的目标。其中包括:
目前,我们仍处于开发初期,但我们非常期待看到受信任的测试人员来使用这些新功能,并从他们的反馈中汲取经验,不断完善,进而帮助我们在未来将新功能应用到更广泛的产品中。
Project Astra:
使用多模态理解现实世界的智能体
自从在 Google I/O 大会上推出 Project Astra 以来 ,我们一直向那些在 Android 手机上使用它的受信任的测试人员收集反馈。这些大量且宝贵的意见帮助我们更深入地理解通用 AI 助手在现实应用中的表现,包括在安全和伦理方面可能面临的挑战。基于 Gemini 2.0 版本,我们在以下方面进行了改进:
我们正在将这些功能应用于 Google 的产品中,例如我们的 AI 助手 Gemini app 以及智能眼镜等其他设备。除此之外,我们将逐步扩大受信任的测试群体范围,其中的一小部分受信任的测试人员将很快能够开始测试 Project Astra 在原型智能眼镜上的表现。
Project Mariner:帮您完成复杂任务的智能体
Project Mariner 是使用 Gemini 2.0 构建的早期研究原型,旨在从您的浏览器开始,探索人机交互的未来。作为研究原型,它能够理解和推理浏览器页面中的信息,包括像素和文本、代码、图像和表单等网页元素,然后通过实验性的 Chrome 扩展程序使用这些信息为您完成任务。
在 WebVoyager 基准测试(该测试针对智能体在端到端的真实世界网页任务的性能)中,Project Mariner 作为单个智能体设置实现了 83.5% 的工作效率,达到了最先进的水平。
虽然目前 Project Mariner 的运行并非总是准确,且完成任务的速度较慢,但它仍处于早期阶段,并且随着时间的推移将迅速改善。
为了安全、负责任地构建这一系统,我们正在积极研究新型风险和应对措施,始终保持有人类的参与和监督。例如,Project Mariner 只能在浏览器上的活动标签页中键入、滚动或单击,而它在采取某些敏感操作(如购买某物)之前,会要求用户进行最终确认。
受信任的测试人员现在正开始使用实验性的 Chrome 扩展程序测试 Project Mariner,同时,我们正与网络生态系统展开合作。
Jules:面向开发者的智能体
接下来,我们会探索人工智能智能体如何通过 Jules(一种实验性的 AI 代码智能体,它可以直接集成到 GitHub 工作流程中)来协助开发者。它可以解决问题、制定并执行计划,所有这些都在开发者指导和监督下进行。这项工作是我们长期目标的一部分,即构建可在所有领域(包括编码)中提供帮助的 AI 智能体。
关于此实验的更多信息,请参阅我们的开发者博客文章。
游戏和其他领域的智能体
Google DeepMind 一直以来都在利用游戏来帮助人工智能模型更好地遵守规则,进行规划,并运用逻辑思维。比如就在上周,我们推出了 Genie 2,这是一个可以从单个图像创建无限多种可玩 3D 世界的 AI 模型。基于这一传统,我们使用 Gemini 2.0 构建了智能体,它们可以帮助您在电子游戏中做出更明智的决策。这些智能体可以根据屏幕上的实时画面,分析游戏情况,并为您提供下一步行动建议。
我们正在与 Supercell 等顶尖的游戏开发团队合作,探索智能体在游戏领域的应用。我们通过测试它们在《部落冲突》、《海岛奇兵》等各种游戏中的表现,来评估它们理解游戏规则、应对挑战的能力。
除了做虚拟游戏伙伴之外,这些智能体还可以通过 Google Search 让您接触到丰富的游戏相关的知识。
除了探索虚拟世界的智能体能力外,我们还将 Gemini 2.0 的空间推理能力应用于机器人领域,尝试让智能体在现实世界中提供帮助。虽然这项研究仍处于初期阶段,但我们对智能体在现实环境中的应用前景感到非常兴奋。
关于这些研究原型和实验的更多信息,请您查阅 labs.google。
在智能体时代负责任地进行构建
通过 Gemini 2.0 Flash 和我们的研究原型,我们能够不断测试和迭代 AI 研究的前沿新功能,这些新功能最终将提升 Google 产品的实用性。
在开发这些新技术的同时,我们深知其所带来的责任,也意识到 AI 智能体在安全方面可能引发的诸多问题。正因如此,我们采取探索性和渐进式的开发方式。我们对多个原型进行深入研究,不断迭代地实施安全培训,与受信任的测试人员和外部专家合作,并进行全面的风险评估和安全性测评。
我们深信,AI 的构建必须从一开始就秉持高度的责任感。我们将始终将安全和责任置于模型开发过程的优先位置,不断完善我们的模型和智能体。
Gemini 2.0、AI 智能体以及更多
今天的发布标志着 Gemini 模型迈入了新的发展阶段。随着 Gemini 2.0 Flash 以及一系列探索 AI 智能体可能性的研究原型的推出,我们非常开心在 Gemini 时代达到了一个重要的里程碑。我们也期待着继续安全地探索所有的可能性,向构建通用人工智能(AGI)不断迈进
53AI,企业落地应用大模型首选服务商
产品:大模型应用平台+智能体定制开发+落地咨询服务
承诺:先做场景POC验证,看到效果再签署服务协议。零风险落地应用大模型,已交付160+中大型企业
2024-12-21
Gemini 2.0 Flash Thinking:谷歌推出实验性多模态推理模型,在快速生成的同时展示详细的思考过程
2024-12-20
快手可灵1.6正式上线,他们又一次超越了自己。
2024-12-19
GPT-4o掀起全模态热潮!一文梳理全模态大模型最新研究进展
2024-12-19
国家电网发布国内首个千亿级多模态电力行业大模型
2024-12-19
初创公司 Odyssey 推出 AI 工具 Explorer了
2024-12-19
利用 Gemini 构建 PDF 文档 AI 管道:原理、实现与应用(含代码)
2024-12-18
一手实测豆包新发布的视觉理解大模型,他们真的卷起飞了。
2024-12-18
百度飞桨:多模态大模型技术进展与产业应用实践
2024-09-12
2024-05-30
2024-06-17
2024-08-06
2024-08-30
2024-06-14
2024-04-21
2024-06-26
2024-07-21
2024-07-07