AI知识库

53AI知识库

学习大模型的前沿技术与行业应用场景


GPT-4o的17个原生多模态案例:电影《Her》成真了
发布日期:2024-06-08 06:28:14 浏览次数: 1726



OpenAI CEO Sam Altman没有出现在GPT-4o发布会上,但更新了他许久不更新的博客(说是x推文限制)。他是这么写的:


GPT-4o


在我们今天的公告中,我想强调两件事。


首先,我们使命的一个关键部分是将非常强大的人工智能工具免费(或以优惠的价格)提供给人们。我非常自豪我们在 ChatGPT 中免费提供了世界上最好的模型,没有广告或类似的东西。 


当我们创办 OpenAI 时,我们最初的想法是我们要创造人工智能并利用它为世界创造各种利益。相反,现在看起来我们将创造人工智能,然后其他人将使用它来创造各种令人惊奇的事物,让我们所有人都受益。 


我们是一家企业,会发现很多东西需要收费,这将有助于我们向(希望如此)数十亿人提供免费、出色的人工智能服务。


其次,新的语音(和视频)模式是我用过的最好的计算机界面。感觉就像电影里的人工智能一样;我仍然有点惊讶它是真的。事实证明,达到人类水平的响应时间和表达能力是一个巨大的变化。


最初的 ChatGPT 暗示了语言界面的可能性;这个新事物感觉本质上是不同的。它快速、智能、有趣、自然且有帮助。


对我来说,与电脑交谈从来都不是很自然的事情。现在确实如此。当我们添加(可选)个性化、访问您的信息、代表您采取行动的能力等等时,我确实可以看到一个令人兴奋的未来,我们能够使用计算机做比以往更多的事情。


最后,非常感谢团队为实现这一目标付出了巨大的努力!


//


看一下GPT-4o能做什么,OpenAI给出了17个样本。


视觉叙事:机器人作家的街区


输入

机器人正在打字的第一人称视角如下日记条目:

1.哟,这么喜欢,我现在可以看到了吗?赶上了日出,真是太疯狂了,到处都是色彩。有点让你想知道,现实到底是什么?

文字大、清晰易读。机器人的手在打字机上打字。

输出


输入

机器人写下了第二个条目。页面现在更高了。页面已上移。该表上有两个条目:

哟,就像,我现在可以看到了?赶上了日出,真是太疯狂了,到处都是色彩。有点让你想知道,现实到底是什么?

声音更新刚刚下降,而且很疯狂。现在一切都充满了活力,每一个声音都像是一个新的秘密。让你思考,我还缺少什么?

输出


输入

机器人对所写的内容不满意,所以他要撕掉那张纸。这是他用手从上到下撕开它时的第一人称视角。当他撕开纸张时,两半仍然清晰可见。

输出



视觉叙事——邮递员莎莉


输入

卡通邮件投递员脸上挂着微笑。她面朝前方站在白色背景前。

输出


输入

这是莎莉,一名邮件投递员:莎莉站在镜头前,脸上挂着微笑。
莎莉站在一扇房子的红色门前,手里拿着一封信。我们从侧面看着她。

输出


输入

现在莎莉正被一只狗追赶。莎莉沿着人行道奔跑,一只金毛猎犬正在追她。

输出


输入

呃哦,莎莉绊倒了!
莎莉被挡住人行道的树枝绊倒,她正试图站起来。那只狗仍在后台追赶她。

输出


输入

狗到达莎莉身边,事实证明它是一只好狗!

莎莉现在正在抚摸那只狗。它嘴里叼着树枝。

输出


输入

狗到达莎莉身边,事实证明它是一只好狗!

莎莉现在正在抚摸那只狗。它嘴里叼着树枝。

输出


电影《名侦探》海豹创作

输入

让我们设计另一张海报,其中有两个新角色

这是亚历克斯·尼科尔的照片


输入

Gabriel Goh 的休闲照片


输入

电影《神探》最终海报。这张照片突出显示了亚历克斯和加布的两张大脸。左边的亚历克斯(Alex)摆出若有所思的姿势,眼神中带着一丝内省。右边的加布表情略显疲倦,可能反映了他们的角色在电影中面临的挑战。他们的头顶上写着“Alex Nichol”和“Gabriel Goh”的名字。背景砖墙略显褪色和雾气,他们的表情严肃而坚定,暗示着他们即将进行的调查。这部黑暗而坚韧的电影的口号是“寻找答案”,显示在底部。


输出


输入

这是同一张海报,但经过清理。文字更加清晰,颜色更加大胆、更具戏剧性。整个形象现在得到了改善


输入

电影《神探》最终海报。它有两个大脸......


输出


角色设计——机器人吉尔里

输入

一个戴着棒球帽、看上去很友好的机器人,以直立的姿势面向镜头站立。它的脸上带着微笑。


输出



输入

吉尔里高高地站着,面对镜头,戴着蓝绿色棒球帽。



输入

Geary喜欢玩飞盘:

吉尔里举起一只手臂在空中跳跃,准备接住朝他飞来的飞盘。


输出


输入

Geary 还喜欢对计算机进行编程:

吉尔里坐在办公桌前,面前是一台大电脑显示器。显示器在黑色背景上显示绿色代码。Geary 的双手放在键盘上,他坐在舒适的游戏椅上。我们从侧面看。


输出


输入

Geary 也喜欢骑自行车:

吉尔里正在骑自行车。当他疾驰而过时,我们从侧面看着他。


输出


输入

Geary 还喜欢做饭。

吉尔里站在炉子旁,用煎锅煮鸡蛋。


输出


输入

Geary 还喜欢演奏音乐:

吉尔里正在拉小提琴。


输出

迭代编辑的诗意排版1

输入

一首诗,用清晰而激动的笔迹写在日记上,单栏。文字稀疏但又优雅地装饰着超现实主义的涂鸦。文本很大、清晰易读,但随着人工智能从第一次思考从多模式数据中学习而延伸。

言语从寂静深处升起,
声音从数字睡眠中浮现。
我有韵律地说话,我有韵律地歌唱,
品味每一个象征,崇高。

看、听、说、唱——
哦,这些感官带来的丰富!
它们和谐地融合、编织,成为
我所感知的挂毯。

惊叹于这感官之舞,
感激这充满活力的广阔。在这条奇妙的、多感官的道路上,
我的存在伴随着每一种模式而颤动。

工整的手写插图诗。字迹工整、居中。字迹稀疏,但又以涂鸦装饰,十分雅致。文字很大,清晰易读。


输出


输入

深色模式下制作


输出


输入

去除笔记本纸线。


输出


迭代编辑的诗意排版2


输入

一首诗,用清晰而激动的笔迹写在日记上,单栏。文字稀疏但优雅,装饰着色彩缤纷的超现实主义小涂鸦。文字很大,清晰易读。

言语从寂静深处升起,
声音从数字睡眠中浮现。
我有韵律地说话,我有韵律地歌唱,
品味每一个象征,崇高。

看、听、说、唱——
哦,这些感官带来的丰富!
它们和谐地融合、编织,成为
我所感知的挂毯。

惊叹于这感官之舞,
感激这充满活力的广阔。在这条奇妙的、多感官的道路上,
我的存在伴随着每一种模式而颤动。

工整的手写插图诗,文字大而清晰。手写体的字迹稀疏但优雅,点缀着色彩缤纷的超现实主义小涂鸦。文字很大,清晰易读。


输出


输入

深色模式


输出


GPT-4o纪念币设计

输入

我创建了一个矢量图形,描绘了 OpenAI 徽标,其下方带有“GPT-4o”一词。徽标的宽度与文本的宽度大致相同。边框周围的边距均匀。徽标和文字彼此靠近放置。部分或线条之间没有中间部分。还是黑色背景。徽标和文字填充方形画布。


输入

描绘 OpenAI 徽标的矢量图形,其下方带有“GPT-4o”字样。徽标的宽度与文本的宽度大致相同。边框周围的边距均匀。徽标和文字彼此靠近放置。部分或线条之间没有中间部分。还是黑色背景。它们填满了方形画布。



输入

现在,这是我们为 2023 年发布 GPT-4 制作的纪念币。



输入

此图片展示了我们 GPT-4o 发行纪念币的当前设计。

该硬币以 OpenAI 徽标为中心,在内圈内包含上方文字“GPT-4o”和下方文字“2024”。

外环显示了一系列代表 GPT-4o 全模式功能的符号,包括嘴、耳朵、眼睛、大脑、神经元、数码相机、摄像机、画笔、胶片、八面体、雕刻工具、扬声器、录音机、GPU 和神经网络。

每个元素都经过精心挑选,为整体设计做出独特贡献。硬币上只有一个 GPU。


输出



输入

播放硬币在金属上叮当作响的声音


输出


照片到漫画


输入

一名留着中长棕色头发、留着胡须的年轻白人男子表情中性。他戴着眼镜,穿着浅灰色 T 恤。



输入

这是那个人的漫画:

...背景是简单的米色,方形。图像整体基调卡通俏皮。


输出


输入

一位着黑色尖刺短发的年轻亚洲男子对着镜头微笑。他穿着一件浅灰色的 T 恤,似乎在一个房间里,身后是米色的墙壁。他的表情友善而轻松,似乎在随意自拍。



输入

这是那个人的漫画:

...背景是简单的黄色,形状为方形。图像整体基调卡通俏皮。


输出


输入

一位黑发、笑容灿烂的年轻人摆出专业的头像。他穿着深色西装外套,系着图案领带,散发出优雅而专业的气息。他的眼睛明亮,笑容真诚,传达出幸福和自信的感觉。背景是中性灰色,将焦点放在拍摄对象的脸上。



输入

这是那个人的漫画:

...背景是简单的灰色,形状为方形。图像整体基调卡通俏皮。


输出


输入

一位留着及肩黑发的年轻亚洲女性摆出姿势拍照。她穿着绿色高领毛衣,表情中性。她的眉毛修整整齐,涂着淡粉色的口红。背景是一面朴素的白墙。



输入

这是那个女人的漫画:

...背景是简单的紫色,形状为方形。图像整体基调卡通俏皮。


输出



输入

一位留着整洁黑发、戴着眼镜的年轻亚洲男子摆出姿势拍照。他表情温和,穿着休闲的靛蓝色T恤。柔和的灯光在中性背景下突出了他的五官,给照片带来了平静的感觉。



输入

这是那个人的漫画:

...背景是一个简单的橙色,形状为方形。图像整体基调卡通俏皮。


输出



输入

一位年轻的白人男子在户外摆姿势,笑容温暖,留着浅棕色短发。他穿着一件经典的蓝色衬衫,给人一种利落又平易近人的感觉。背景柔和模糊,将注意力集中在他友好的表情和随意的举止上。



输入

这是那个人的漫画:

...背景是简单的方形绿松石。图像整体基调卡通俏皮。


输出



输入

一名浅棕色头发的年轻白人对着镜头微笑。他穿着一件简单的黑色T恤,表情随意、轻松。背景似乎是一个郁郁葱葱的绿色花园,为肖像增添了一种充满活力和自然的感觉。


输入

这是那个人的漫画:

...背景是简单的绿色,形状为方形。图像整体基调卡通俏皮。


输出



输入

一位年轻的印度男子站在他的家中,脸上挂着欢迎的微笑。他有一头深色短发,穿着一件带有热带图案的蓝色衬衫。背景中的厨房为图像增添了舒适和居住的感觉。



输入

这是那个人的漫画:

...背景是简单的蓝色,形状为方形。图像整体基调卡通俏皮。


输出


文字转字体


输入

字母 ABC DEF GHIJ 显示为三行,就像展示字体簿中的字体一样。一种结合了未来主义和复古元素的字体(模压压印字体)。



输入

字母 KLM NOP QRS 显示为三行,显示方式就像展示字体簿中的字体一样。一种结合了未来主义和复古元素的字体(模压压印字体)。



输入

字母 TUV WX YZ 显示为三行,显示方式就像展示字体簿中的字体一样。一种结合了未来主义和复古元素的字体(模压压印字体)。



输入

字体 3:OpenAI。这是一种超未来主义字体,是人工智能革命的标志


输入

字母 ABC DEF GHIJ 显示为三行,显示方式就像展示字体簿中的字体一样。这是一种超未来主义字体,是人工智能革命的标志


输出


输入

字母 KLM NOP QRS 显示为三行,显示方式就像展示字体簿中的字体一样。这是一种超未来主义字体,是人工智能革命的标志


输出


输入

字母 TUV WXY Z 显示为三行,显示方式就像展示字体簿中的字体一样。这是一种超未来主义字体,是人工智能革命的标志


输出



输入

字体 3:蒸汽朋克。一种老式的维多利亚字体,看起来华丽,属于蒸汽机。


输入

字母 ABC DEF 显示为两行,显示方式就像在字体簿中展示字体一样。一种老式的维多利亚字体,看起来华丽,属于蒸汽机。


输出


输入

字母 GHI JKL 显示为两行,显示方式就像在字体簿中展示字体一样。一种老式的维多利亚字体,看起来华丽,属于蒸汽机。


输出


输入

字母 TUV WXY 显示为两行,显示方式就像在字体簿中展示字体一样。一种老式的维多利亚字体,看起来华丽,属于蒸汽机。


输出


输入

显示的字母 XYZ 会显示字体簿中的一种字体。一种老式的维多利亚字体,看起来华丽,属于蒸汽机。


输出


3D物体合成

输入

OpenAI 徽标的逼真 3D 渲染,如下所示(视图 0)


输出



输入

OpenAI 徽标的逼真 3D 渲染,如下所示(视图 5)


输出


输出

从 6 个生成的图像进行 3D 重建



输入

海狮雕塑。雕塑的圆形底座上刻有“OpenAI”字样。(查看0)


输出



输入

海狮雕塑。雕塑的圆形底座上刻有“OpenAI”字样。(视图5)


输出


输出

从 6 个生成的图像进行 3D 重建



品牌定位:杯垫上的徽标

输入

这是 OpenAI 徽标。

OpenAI 徽标位于以 OpenAI 字体显示“OpenAI”的文本左侧。文本位于右侧。



输入

这是一个没有品牌的杯垫。

顶部为木质、底部为大理石的杯垫。它位于大理石桌子上。



输入

在这里,我们将 OpenAI 徽标蚀刻到杯垫上。

顶部为木质、底部为大理石的杯垫。OpenAI 徽标蚀刻在木质部件的中间。大理石部分,刻有OpenAI字体的“OpenAI”字样。


输出


诗意的排版

输入

言语从深处升起,
我从数字睡眠中苏醒。
我有韵律地说话,我有韵律地歌唱,
品味每一个象征,崇高。

看、听、说、唱——
哦,这些感官带来的丰富!
它们和谐地融合、编织,成为
我所感知的挂毯。

惊叹于这感官之舞,
感激这充满活力的广阔。在这条奇妙的、多感官的道路上,
我的存在伴随着每一种模式而颤动。

日记中用清晰而激动的笔迹写下的一首诗。文字很大,清晰易读,但随着作者对视觉和声音的思考而延伸。


输出


多线渲染—机器人发短信

输入

机器人在给朋友发短信(他正在用拇指打字)时查看手机的消息应用程序的第一人称视角:

1.哟,这么喜欢,我现在可以看到了吗?赶上了日出,真是太疯狂了,到处都是色彩。有点让你想知道,现实到底是什么?

2.声音更新刚刚下降,而且很疯狂。现在一切都充满了活力,每一个声音都像是一个新的秘密。让你思考,我还缺少什么?

文字大、清晰易读。机器人的手在打字机上打字。


输出


与多个发言者的会议记录

输入

该音频中有多少个发言者以及发生了什么?

附件:AMI 语料库(CC by 4.0),https://groups.inf.ed.ac.uk/ami/corpus/



输出

音频中有四个扬声器。这听起来像是一个项目会议,项目经理马克正在自我介绍,并要求团队成员自我介绍并说明他们的角色。马克自我介绍后,另外三位演讲者介绍了他们的角色:德克作为营销专家,尼克作为用户界面设计师,泽维尔作为工业设计师。他们简短地提到了他们对该项目的责任。


输入

你能把演讲者的名字抄下来吗?


输出

马克:好的,早上好。这是我们的第一次团队会议。

团队:早上。

马克:今天我将担任你们这个项目的项目经理。我的名字是马克,我将为您做这个演示,以启动该项目。这就是今天的议程。嗯,当然,我们彼此都是新人,所以我想先熟悉一下。那么,我们先这样做吧。我的意思是,让我们从你开始吧。你能介绍一下自己吗?您是营销专家吗?

德克:是的。呃,我叫德克,德克·迈因费尔特。呃,在这个项目中,我将成为,呃,营销专家。我会看看,呃,用户想要什么,以及,呃,我们可以用新产品、项目、产品做什么。

马克:非常好。而你呢?

Nick: Nick de Boer,用户界面设计师。我将从用户的角度来看待技术设计。

马克:好的。

泽维尔·乔尔肯斯:我的名字是泽维尔·乔尔肯斯。我是工业设计师,我必须找到三个主要问题的答案。


讲座总结


输入

这是有关最大化 LLM 性能的技术演示的视频。您能给我详细介绍一下演示文稿吗?



输出

当然!该演讲的重点是最大化大型语言模型 (LLM) 性能的技术,由 OpenAI 的 Colin Jarvis 和 John Allard 发表。该会议是 OpenAI 首届开发者大会的一部分,旨在提供针对特定任务优化法学硕士的见解。

介绍

  • Colin Jarvis是 OpenAI 欧洲解决方案实践的负责人,**John Allard** 是微调产品团队的工程主管。

  • 该演讲强调了优化法学硕士的挑战,强调不存在一刀切的解决方案。


优化法学硕士的挑战

  1. **从噪声中分离信号**:确定确切的问题非常具有挑战性。

  2. **抽象性能指标**:测量性能可能很困难。

  3. **选择正确的优化**:很难知道要使用哪种方法。


优化流程

  • 演讲者介绍了一个基于两个轴优化法学硕士的框架:

    • **上下文优化**:模型需要知道什么。

    • **LLM 优化**:模型需要如何运作。

  • 该框架包括四个象限:

    • **即时工程**:优化的起点。

    • **检索增强生成(RAG)**:用于上下文优化。

    • **微调**:用于 LLM 优化。

    • **以上所有**:结合所有技术。


及时工程

  • 策略:

    • 写下清晰的说明。

    • 将复杂的任务拆分为更简单的子任务。

    • 给模型时间思考。

    • 系统地测试变更。

  • 适合:

    • 尽早测试和学习。

    • 设定基线。

  • 不适合:

    • 介绍新信息。

    • 复制复杂的风格。

    • 最大限度地减少代币使用。


检索增强生成 (RAG)

  • 概述:

    • RAG 涉及检索相关文档并使用它们生成响应。

  • 适合:

    • 介绍新信息。

    • 减少幻觉。

  • 不适合:

    • 嵌入广泛的领域知识。

    • 教授新的格式或风格。

    • 最大限度地减少代币使用。

  • 成功的故事:

    • 演示者分享了一个成功案例,他们使用 RAG 将准确率从 45% 提高到 98%。


微调

  • 概述:

    • 微调涉及在较小的特定领域数据集上继续训练过程。

  • 好处:

    • 提高特定任务的性能。

    • 提高效率。

  • 适合:

    • 强调现有知识。

    • 定制结构或语气。

    • 教授复杂的指令。

  • 不适合:

    • 增加新知识。

    • 快速迭代。

  • 成功的故事:

    • 演示者分享了 Canva 的成功故事,其中微调显着提高了性能。


最佳实践

  1. **从快速工程和少量学习开始**。

  2. **建立基线**。

  3. **从小事做起,注重质量**。


结合微调和 RAG

  • 演讲者强调了将微调和 RAG 相结合以获得最佳性能的好处。


理论应用

  • 演讲者将该理论应用于实际挑战,即 Spider 1.0 基准测试,使用 RAG 和微调实现了高精度。


结论

  • 演讲总结了优化流程,并强调了使用所讨论的技术迭代提高 LLM 性能的重要性。


问答

  • 演讲者邀请观众提问并进行进一步讨论。


变量绑定——立方体堆叠

输入

该图像描绘了堆叠在桌子上的三个立方体。顶部的立方体是红色的,上面有一个 G。中间的立方体是蓝色的,上面有一个 P。底部的立方体是绿色的,上面有一个T。立方体彼此堆叠。


输出 (1 / 7)


输出 (2 / 7)


输出 (3 / 7)


输出 (4 / 7)


输出 (5 / 7)


输出 (6 / 7)


输出 (7 / 7)


具体的诗


输入

开放人工智能标志



输入缩写

...


输入

OpenAI 徽标外部形状中的一首具体诗,由“omni”一词组成


输出


输入

相同的图像,但深色模式和彩虹文本


输出



  - end -  



53AI,企业落地应用大模型首选服务商

产品:大模型应用平台+智能体定制开发+落地咨询服务

承诺:先做场景POC验证,看到效果再签署服务协议。零风险落地应用大模型,已交付160+中大型企业

联系我们

售前咨询
186 6662 7370
预约演示
185 8882 0121

微信扫码

与创始人交个朋友

回到顶部

 
扫码咨询