我要投稿

Google IO 全面解读：超强AI搜索，Gemini 1.5 Pro / Flash，谷歌版“Sora” - Veo，和更多

发布日期：2024-05-15 06:56:14 浏览次数： 3321 作者：赛博禅心

又是大半夜的，Google 也开了发布会：Google IO，带来了一堆新的东西。

咱们先速读，再详解，赛博禅心总能质量保证：

速读：发布了啥

Google Search AI 版

发布了 AI Overviews，也就是超级加倍版的 AI 搜索，非常强的多步推理能力！

Gemini & Gemma 模型

100 万上下文的 Gemini 1.5 Flash 模型，和 200 万上下文（需申请）的 Gemini Pro 模型，以及相应的折扣计划。

开源方面，发布了多模态模型 Pali Gemma，以及 Gemma2（6月正式推出）。

AI in Google Workspace

借用 Gemini 的能力，通过 Side Panel 的方式，打通了 Google 全家桶。

Gmail App 即将升级，自动处理邮件不是梦。

Gemini App

也就是手机版的 Gemini 应用，也将支持和 AI 视频对话。

其他 AI 产品

三款 AI 产品：画图的 Imagen 3，音乐的 Music AI Sandbox，还有生成视频的 Veo。

硬件与云

发布了 Trillium - 第6代 TPU，是上一代的 4.7 倍强。同时发布的还有 Arm 架构的 Google Axion 处理器。

下面是详细报道，容我点点道来：

Google Search

AI Search：真谷歌，做自己

发布者表示，Google Search 有 3 个最核心的优势：

超过 10 亿的实时信息，关于任何的人、事、物
毋庸质疑的权重排名，有口皆碑
由 Gemini 提供技术支持（噗～）

AI Overviews：Perplexity 的超级加倍

当你需要寻找信息的时候，Google 会到全网帮你查找、整理，然后展示。

这一功能现在已经向美国用户开放了，其他地方的用户再等等。

对于中国用户，再等等等等等等....

在年底的时候，这一服务预计可以覆盖 10 亿用户

Multi-Reasoning：多重推理

这不是一个产品，而是一个特性，贯穿新 Google 的搜索服务。简单来说，Google 现在可以帮你处理较为复杂的任务。

比如「找到赛博禅心的作者大聪明，然后给他订一份隆江猪脚饭，让他感受男人的浪漫」。这时，你就能看到关于赛博禅心的信息、关于大聪明的信息、关于猪脚饭的信息，以及怎么给他点猪脚饭的信息。

Plan Ahead：为你规划

和上面一样，这是一个特性。

除了提供答案外，这东西还会帮你做更为详细的规划，比如搜索类似“创建一个 3 天的饮食计划”，他就会帮你全网搜集信息，生成一个可交互的规划页面。

AI-organized：结果自整理

和上面一样，这是一个特性。

当你让 Google 帮你制定一个规划的时候，比如晚宴计划，他除了会帮你全网搜集信息外，生成的规划页面自带排版。

多模态搜索

和上面一样，这是一个特性。

你的输入，不仅仅可以是文字，也可以是一张图+声音。

当你遇到一个不熟悉的物件，比如：闪电五连鞭，你就可以视频来问 Google：这是个啥？（小发现：演示者使用的 App 是 Google Lens）

然后 Google 就会帮你整理出相关的各种信息。

当你让 Google 帮你制定一个规划的时候，比如饮食计划，他就会帮你全网搜集信息，生成一个可交互的规划页面。

以上

就是今年的 Google Search，很强大！

Gemini & Gemma 模型

Gemini Nano

跑在手机里的，无需联网，在系统层面深度集成，这意味着他可以帮你接电话，甚至帮你和电诈份子打的有来有回（小爱同学？）

Gemini 1.5 Flash

100 万 token上下文，费用友好，响应迅速。价格信息如下：

标准价

输入：$0.7 / 1M tokens
输出：$1.05 / 1M tokens

折扣价（上下文小于 128k 时）

输入：$0.35 / 1M tokens
输出：$0.53 / 1M tokens

对比一下，GPT-3.5 Turbo （16k 上下文）的价格是

输入：$0.5 / 1M tokens
输出：$0.15 / 1M tokens

今天就能访问啦～

Gemini 1.5 Pro

200 万 token 上下文， Google 当下最强的模型，干啥都行。价格信息如下：

标准价

输入：$7 / 1M tokens
输出：$21 / 1M tokens

折扣价（上下文小于 128k 时）

输入：$3.5 / 1M tokens
输出：$10.5 / 1M tokens

对比一下，GPT-4o （128k 上下文）的价格是

输入：$5 / 1M tokens
输出：$15 / 1M tokens

同时，在下个月，这个模型在 API 层面，还会更新以下 Feature：

视频输入：它来帮你拆帧
并行的 Function Calling：一次处理多个执行请求
文本缓存：QA 文件时，无需每次都重新上传

下面是跑分：

PaliGemma

Google 家的首个开源的、支持图像输入的模型。可在 GitHub、Hugging Face 模型、Kaggle、Vertex AI Model Garden 和 ai.nvidia.com（使用 TensoRT-LLM 加速）上找到，然后今天就能用。

Gemma2

6月更新，Google 家的下一代开源模型，27B 大小，性能可与 Llama 3 70B 相媲美，体积不到一半。。

这个模型，可在 NVIDIA 的 GPU 上运行，或者可以在 Vertex AI 的单个 TPU 主机上高效运行，（也就是非常适合在 Google Cloud 上跑）。

由 DeepMind 团队出品

DeepMind 是 Google 旗下的人工智能（AI）公司，专注于通过机器学习和神经网络研究来解决复杂问题。其团队开发了许多著名的产品和技术，包括 AlphaGo（击败围棋冠军的AI）、AlphaFold（预测蛋白质结构）和MuZero（无需预先知识进行游戏决策的算法）。

这个就是 DeepMind 团队的作品：AlphaFold 3 发布：今天起，AI 已能预测生命分子的组成

AI in Google Workspace

Side Panel

这是个侧边对话框，可以帮你沟通和操作各种 Google 家的东西。实现在线的「ChatDoc」、「ChatExcel」功能。

AI 打通全家桶

在 Gemini 的加持下，Google Workspace，包括 Gmail、Google Docs、Google Drive、Google Calendar、Google Meet 等都可以打通，并一起 QA。

比如，你在邮箱里收到了一张发票，那么可以直接在通过 Gemini，让他把这个发票，整理到网盘（Google Drive）和表格里（Google Sheet）

Gmail Mobile

这次的 Gmail，带来了 3 个主要新特性

总结邮件，然后QA
跨邮件，对邮箱进行 QA
智能回复，懒人必备（哎。。。人与人之间的真诚呢）

这里，总结功能将在这个月推出，而后面两个，则会 7 月推出。

虚拟队友

在 Gmail 里，你可以设立一个 AI bot，类似 GPTs，并把它邀请进对话（就是很多微信群里出现的那种）

Gemini App

Gemini 应用的手机版

形象一点：Google 的文心一言app，免费的。

Gemini Live

在 Gemini app 中，你可以和 AI 进行视频对话，延迟大概是 1-2秒，比 GPT-4o 长很多（4o 大概是 0.3秒），同时语音语调明显比 4o 要弱。

这个应用将在今年晚些的时候面世。

Gems

长话短说：Gemini 的 “GPTs”+ Overviews 功能，今年夏天推出。

其他 AI 产品

Imagen 3：画画模型

Google 最新最强的图像生成模型（看上去确实不错），可通过 ImageFX 中使用，这里访问：labs.google（没错，网址就是 labs.google）

Prompt: Shot in the style of DSLR camera with the polarizing filter. A photo of two hot air balloons floating over the unique rock formations in Cappadocia, Turkey. The colors and patterns on these balloons contrast beautifully against the earthy tones of the landscape below. This shot captures the sense of adventure that comes with enjoying such an experience

Prompt: A pair of well-worn hiking boots, caked in mud and resting on a rocky trail. The head of a squirrel is poking out of one of the boots, and it looks lazily at the camera, a little king of its shoe. The laces of both boots fall loosely to the ground. There's a mountainous landscape in the background. Cinematic movie still, high quality DSLR photo.

Prompt: Three women stand together laughing, with one woman slightly out of focus in the foreground. The sun is setting behind the women, creating a lens flare and a warm glow that highlights their hair and creates a bokeh effect in the background. The photography style is candid and captures a genuine moment of connection and happiness between friends. The warm light of golden hour lends a nostalgic and intimate feel to the image.

Music AI Sandbox：作曲

艺术家可以通过这个，来创作音乐，并发布到 Youtube，直接上视频：

Veo：视频生成AI，对标 Sora

可以生成高质量的、1080p的、时长超过1分钟的视频，风格多样。

ahhhhh，Google 果然没有放过这个，看着效果很不错！