微信扫码
与创始人交个朋友
我要投稿
2023-2024年是AI领域蓬勃发展的时期,各家科技巨头纷纷推出自家的大模型,竞争激烈。谷歌在AI领域持续深耕,并于2024年8月1日发布了Gemini 1.5 Pro(0801),其卓越的性能超越了ChatGPT-4,使得谷歌夺得lmsys竞技场第一,中文任务也位列榜首。本文将深入探讨Google的AI大模型发展历程,并以实际案例展示Gemini的强大功能。
Gemini 是 Google 推出的多模态 AI 模型,旨在超越 OpenAI 的 ChatGPT 4.0。它不仅拥有强大的文本理解和生成能力,还能处理图像、视频等多模态数据,并进行更深层次的推理和理解,为用户带来更智能、更人性化的交互体验。
为了迎战 ChatGPT,谷歌于 2023 年 3 月推出聊天机器人 Bard,但它的最初产品能力并不足够好、甚至在现场演示时回答出错, 导致股价暴跌。
为了在竞争激烈的AI领域保持领先地位,谷歌不断迭代更新其AI模型。从最初的LaMDA模型,到功能更强大的PaLM模型,再到如今的Gemini模型,谷歌的AI技术一直在不断进步。
模型 | 主要特点 | 应用场景 |
---|---|---|
Gemini Nano | 轻量级模型,适用于设备端,如内置在移动端、PC端、Mac端,做一些无需强大计算的场景,为用户提供更便捷、实时快速的AI体验。 | 设备端应用,如实时翻译、语音识别等。 |
Gemini Pro | 强大的通用模型,适用于各种文本处理任务 | 问答、摘要、翻译、代码生成。 |
Gemini Pro 1.5 | 在 Gemini Pro 的基础上进行改进,性能更强,推理能力更出色 | 更加复杂的文本处理任务,例如长文本理解、代码分析、专业领域的知识问答 |
Gemini Flash | 在Gemini Ultra和Gemini Pro之间的一个平衡点,兼具能力和效率。能够处理各种各样的任务,从简单的问答到复杂的推理。 | 多种任务,如对话、摘要、翻译等。 |
Gemini Advanced | 基于 Google 最强大的 AI 模型 Gemini Ultra 1.0,提供更高级的功能和更强大的性能 | 专业的AI应用,例如科学研究、艺术创作、复杂的数据分析 |
Gemini Ultra | 最强大、最通用的模型,能够处理高度复杂的任务,在许多基准测试中,Gemini Ultra的表现都超越了其他大型语言模型。 | 通用型AI,适用于各种复杂任务。如科学研究、艺术创作等。它能够理解和生成各种形式的内容,包括文本、代码、图像等。 |
模型种类介绍:https://deepmind.google/technologies/gemini/
模型进化:https://gemini.google.com/updates
各模型收费信息: https://ai.google.dev/pricing?hl=zh-cn
Gemini Nano模型 将内置到 Chrome 中,供大家免费使用,为用户提供更便捷的AI体验。
Chrome for developer
官网(developer.chrome.com/docs/ai/bui…)点击“加入我们的早期预览版计划”。"Enabled BypassPerfRequirement"
状态,这将绕过性能检查,这些检查可能会阻碍在你的设备上下载 Gemini Nano。"Enabled"
状态;(await ai.assistant.capabilities()).available;
,如果没有返回 readily,代表失败,请继续以下步骤:
??强制 Chrome 识别你想使用此 API。为此,打开开发者工具,在控制台中发送await ai.assistant.create();
。这可能会失败,但这操作会强制提醒chrome下载模型。
await ai.assistant.create();
后,重新启动 Chrome。chrome://components
(await ai.assistant.capabilities()).available;
。如果返回 “readily”,那么你就准备好了。如果组件列表没有Optimization Guide On Device Model
,或者(await ai.assistant.capabilities()).available
的结果返回不是readily
,可以尝试更换其他国家节点、修改浏览器语言为English后,重启浏览器。如果依然还是不行,请卸载干净浏览器,更换为**Chrome Canary版 或Chrome Dev版的另外一个版本尝试。**
官方文档的使用步骤参考:https://developer.chrome.com/docs/ai/built-in?hl=zh-cn#get_an_early_preview
1. 控制台输入`const session = await ai.assistant.create();`
2. 接着输入 `const result = await session.prompt("实现一个js防抖函数");`
3. 打印结果` console.log(result)`
可以看到Chrome将模型能力,加到了window.ai
上,我们在web应用就可以随时使用内置AI能力了。
import React, { useState } from 'react';
import ReactMarkdown from 'react-markdown';
import { Prism as SyntaxHighlighter } from 'react-syntax-highlighter';
import { solarizedlight } from 'react-syntax-highlighter/dist/esm/styles/prism';
const ChatBox = ({ handleSubmit, messages, input, setInput}) => {
return (
<div className="w-full max-w-3xl mx-auto my-10 bg-white shadow-lg rounded-lg overflow-hidden">
<div className="p-6 h-96 overflow-y-scroll">
{messages.map((msg, index) => (
<div
key={index}
className={`flex ${msg.type === 'user' ? 'justify-end' : 'justify-start'} mb-2`}
>
<div
className={`p-2 text-left rounded-lg ${msg.type === 'user' ? 'bg-blue-500 text-white' : 'bg-gray-200'}`}
>
<ReactMarkdown
components={{
code: ({ node, inline, className, children, ...props }) => {
const match = /language-(\w+)/.exec(className || '');
return !inline && match ? (
<SyntaxHighlighter
style={solarizedlight}
language={match[1]}
PreTag="div"
{...props}
>
{String(children).replace(/\n$/, '')}
</SyntaxHighlighter>
) : (
<code className={className} {...props}>
{children}
</code>
);
}
}}
>
{msg.text}
</ReactMarkdown>
</div>
</div>
))}
</div>
<form onSubmit={handleSubmit} className="border-t border-gray-200">
<div className="flex p-4">
<input
type="text"
value={input}
onChange={(e) => setInput(e.target.value)}
placeholder="ask gemini anything"
className="flex-1 p-2 border border-gray-300 rounded-lg focus:outline-none focus:ring-2 focus:ring-blue-500"
/>
<button
type="submit"
className="ml-2 px-4 py-2 bg-blue-500 text-white rounded-lg hover:bg-blue-600 focus:outline-none focus:ring-2 focus:ring-blue-500"
>
发送
</button>
</div>
</form>
</div>
);
};
export default ChatBox;
window.ai.createTextSession()
创建会话。import React, { useState } from 'react';
import ChatBox from '../../componets/ChatBox';
const BuiltIn = () => {
const [messages, setMessages] = useState([]);
const [input, setInput] = useState('');
const handleSubmit = async (e ) => {
e.preventDefault();
if (input.trim()) {
let newMessage = [...messages, { text: input.trim(), type: 'user' }, { text: 'Loading...', type: 'bot' }]
setMessages(newMessage);
// 使用内置 AI 服务
const session = await window.ai.assistant.create();
// 以普通的方式返回
const response = await session.prompt(input.trim());
newMessage.splice(newMessage.length - 1, 1, { text: response, type: 'bot' });
setMessages(newMessage);
// // 以流式返回
// const stream = await session.promptStreaming(input.trim());
// for await (const response of stream) {
// newMessage.splice(newMessage.length - 1, 1, { text: response, type: 'bot' });
// console.log(response);
// setMessages(newMessage);
// }
setInput('');
}
};
return (
<>
<h1 className="text-3xl font-bold underline text-center">Built-in AI</h1>
<ChatBox handleSubmit={handleSubmit} input={input} setInput={setInput} messages={messages}/>
</>
);
};
export default BuiltIn;
效果如图:
network是没有任何请求的,完全都得本地模型,没有任何网络传输。
Google 提供了 Gemini API SDK,方便开发者将 Gemini 模型集成到自己的应用中。API 支持多种编程语言,包括 Python、Node.js、Web 应用、Dart (Flutter)、Android、Go 和 REST。
import React, { useState } from 'react';
import ChatBox from '../../componets/ChatBox';
import Multimodal from './Multimodal'
// 引入sdk
import { GoogleGenerativeAI } from '@google/generative-ai';
const API_KEY = '你自己申请的apikey';
const genAI = new GoogleGenerativeAI(API_KEY);
// 选择一个想用的模型 这里我选择gemini-1.5-flash
const model = genAI.getGenerativeModel({ model: "gemini-1.5-flash"});
const GoogleAIWeb = () => {
const [messages, setMessages] = useState([]);
const [input, setInput] = useState('');
const handleSubmit = async (e) => {
e.preventDefault();
if (input.trim()) {
// prompt 输入的提示文本
const result = await model.generateContent(input);
const response = await result.response;
const text = response.text();
setMessages([...newMessage, { text, type: 'bot' }]);
setInput('');
}
};
return (
<>
<h1 className="text-3xl font-bold underline text-center">GoogleAIWeb</h1>
{/** 聊天框展示 */}
<ChatBox handleSubmit={handleSubmit} input={input} setInput={setInput} messages={messages}/>
</>
)
};
export default GoogleAIWeb;
效果如图:
可以看到此时与Chrome 内置AI助手不一样, network里面有了请求,走的实时的网络大模型数据。
web对话框-多模态【文+图】
import React, { useState, useRef } from "react";
import { GoogleGenerativeAI } from "@google/generative-ai";
const API_KEY = "你自己的apikey";
// Access your API key (see "Set up your API key" above)
const genAI = new GoogleGenerativeAI(API_KEY);
function App() {
const [image, setImage] = useState([]);
const [question, setQuestion] = useState("");
const [response, setResponse] = useState("");
const handleImageUpload = (event) => {
// 这里可能是多张图片
const files = event.target.files;
for (let i = 0; i < files.length; i++) {
const file = files[i];
if (file) {
const reader = new FileReader();
reader.onloadend = () => {
setImage((prev) => [...prev, reader.result]);
};
reader.readAsDataURL(file);
}
}
};
const handleQuestionChange = (event) => {
setQuestion(event.target.value);
};
// Converts a File object to a GoogleGenerativeAI.Part object.
async function fileToGenerativePart(file) {
const base64EncodedDataPromise = new Promise((resolve) => {
const reader = new FileReader();
reader.onloadend = () => resolve(reader.result.split(",")[1]);
reader.readAsDataURL(file);
});
return {
inlineData: { data: await base64EncodedDataPromise, mimeType: file.type },
};
}
const handleSend = async () => {
if (image && question) {
try {
// The Gemini 1.5 models are versatile and work with both text-only and multimodal prompts
const model = genAI.getGenerativeModel({ model: "gemini-1.5-flash" });
const prompt = question;
const fileInputEl = document.querySelector("input[type=file]");
const imageParts = await Promise.all(
[...fileInputEl.files].map(fileToGenerativePart)
);
const result = await model.generateContent([prompt, ...imageParts]);
const response = await result.response;
const text = response.text();
setResponse(text);
} catch (error) {
console.error("Error:", error);
setResponse("Error occurred while fetching the response.");
}
}
};
return (
<div className="min-h-screen flex flex-col items-center justify-center bg-gray-100 p-4">
<div className="bg-white p-6 rounded-lg shadow-lg w-full max-w-md">
<h1 className="text-2xl font-bold mb-4">多模态聊天框展示</h1>
<input
type="file"
multiple
onChange={handleImageUpload}
className="mb-4"
/>
{image?.map((item) => (
<div className="mb-4">
<img src={item} alt="Uploaded" className="w-full h-auto" />
</div>
))}
{/* {image && (
<div className="mb-4">
<img src={image} alt="Uploaded" className="w-full h-auto" />
</div>
)} */}
<textarea
value={question}
onChange={handleQuestionChange}
placeholder="Ask a question about the image..."
className="w-full p-2 border rounded mb-4"
/>
<button
onClick={handleSend}
className="w-full bg-blue-500 text-white p-2 rounded"
>
Send
</button>
{response && (
<div className="mt-4 p-2 border rounded bg-gray-50">
<strong>Response:</strong> {response}
</div>
)}
</div>
</div>
);
}
export default App;
效果如图:
在这个示例中,我们调用Chrome API const result = await model.generateContent([prompt, ...imageParts]);
同时输入了文字+图片, 大模型为我们返回了响应的结果。
在Chrome 125之后的版本里,Chrome支持在控制台里使用Gemini AI分析错误和警告,帮助开发者更高效地调试和修复问题。
详情请查看:https://developer.chrome.com/docs/devtools/console/understand-messages
需要满足以下几个条件:
Understand console messages with AI
如果
Understand console messages with AI
无法开启的话,hover上去会有提示不可开启的原因。如果提示年龄,则需要登录账号,并确保年龄设置大于18岁。如果已经科学上网,并且ip在可以使用的范围内,仍旧提示当前地区不可使用,可以修改下浏览器和系统的语言、地理位置设置,然后重启。
import { useState } from 'react';
export default function Test() {
const [count, setCount] = useState(0);
const onClick = () => {
const oldCount = count;
setCount(oldCount++);
};
return (
<div>
<button
className='bg-blue-500 text-white p-2 rounded hover:bg-blue-600'
onClick={onClick}
>
点击次数:{count}
</button>
</div>
);
}
从上面可以看出,不仅给出了问题发生的原因及具体的问题代码,并且还给出了解决方案,这在开发过程中,可以快速的帮我们定位错误。
各个模型之间对比评测: https://chat.lmsys.org/
Gemini by Google
每种模型都有其独特的优势和不足,选择哪种模型取决于具体的应用场景。
53AI,企业落地大模型首选服务商
产品:场景落地咨询+大模型应用平台+行业解决方案
承诺:免费场景POC验证,效果验证后签署服务协议。零风险落地应用大模型,已交付160+中大型企业
2025-01-15
最新AI Agent万字综述分享!
2025-01-15
OpenAI Agent来了!大小事务自动帮你搞定,带推送提醒的那种,今日可开玩
2025-01-15
微软华人团队最新研究:从LLM到LAM,让大模型真正具有「行动力」!
2025-01-15
商汤破解世界模型秘诀,「日日新」实现AI大一统!原生融合模型破纪录双冠王
2025-01-14
前DeepMind专家:基于AlphaFold实现蛋白质预测,精度突破
2025-01-14
大模型开发工作手册详细指南
2025-01-14
Anthropic:Agents 最佳实践指南
2025-01-13
Google说:2025年,Agent改变一切!
2024-08-13
2024-05-28
2024-04-26
2024-08-21
2024-06-13
2024-08-04
2024-09-23
2024-07-09
2024-07-01
2024-07-18