我要投稿

谷歌大招来了！！Gemini 2.0 原生多模态输入输出

发布日期：2024-12-12 01:53:21 浏览次数： 2124 作者：歸藏的AI工具箱

谷歌的大招终于来了，发布了 Gemini 2.0 Flash 应该是第一家实现原生多模态输入输出的模型，而且还有新的编码代理，这些代理将通过替代开发人员采取行动来增强工作流程。

Gemini 2.0 Flash

Flash 2.0 的速度是 1.5 Pro 的两倍，同时实现了更强的性能，包括新的多模式输出，并附带原生的工具使用。　

更好的性能：Gemini 2.0 Flash 比 1.5 Pro 更强大，同时仍然提供开发人员期望的 Flash 速度和效率。它还在关键基准测试中改进了多模式、文本、代码、视频、空间理解和推理性能。改进的空间理解可以在杂乱图像中的小对象上生成更准确的边界框，以及更好的对象识别和描述。
原生多模态输出：Gemini 2.0 Flash 生成包含文本、音频和图像的集成响应 - 所有这些都通过单个 API 调用实现。这些新的输出模式可供早期测试人员使用，预计明年将更广泛地推出。

多语种本地音频输出：Gemini 2.0 Flash 具有本地文本转语音音频输出功能，为开发人员提供对模型说话内容以及说话方式的精细控制，可选择 8 种高质量的声音和多种语言和口音。
原生图像输出：Gemini 2.0 Flash 现在原生生成图像，并支持会话式、多轮编辑，因此您可以在之前的输出基础上构建并完善它们。它可以输出交错的文本和图像，使其在多模态内容（如食谱）中非常有用。

原生工具使用：Gemini 2.0 已经接受过训练使用工具-这是构建代理体验的基本能力。它可以本地调用工具，如 Google 搜索和代码执行，以及通过函数调用调用自定义第三方函数。将 Google 搜索本地用作工具可产生更准确和全面的答案，同时增加发布者的流量。可以同时运行多个搜索，从多个来源同时查找更多相关事实并将它们组合以提高信息检索准确性。
多模态实时API：开发人员现在可以使用来自摄像头或屏幕的音频和视频流输入构建实时的多模态应用程序。支持自然对话模式，如中断和语音活动检测。该 API 支持将多个工具集成在一起，以通过单个 API 调用完成复杂的用例。

Jules代码助理

Jules：可以执行任务的编码代理，2.0 Flash，在 SWE-bench Verified 上实现了 51.8％，该测试对代理在真实软件工程任务上的性能进行测试，Claude 3.5是49%。　

Jules，一个实验性的 AI 驱动代码代理，它将使用 Gemini 2.0。朱尔斯能够异步工作，并与你的 GitHub 工作流程集成，处理 bug 修复和其他耗时的任务，而你可以专注于你真正想要构建的内容。Jules会创建全面的、多步骤的计划来解决问题，高效修改多个文件，甚至准备好拉取请求，将修复直接回传到 GitHub。