我要投稿

Sora：AI魔术师背后的技术奥秘与AIGC的未来

发布日期：2024-06-21 03:32:17 浏览次数： 2592

作者：同桌的AI小纸条

微信搜一搜，关注“同桌的AI小纸条”

同桌们，咱们一起想象一下，如果有一个能够模拟物理世界和数字世界中所有元素——从物体、动物到人类——的全能工具，得是什么样？这不是科幻小说中的情节，而是OpenAI最新推出的Sora所承诺的现实。Sora不仅仅是一个视频生成工具，它被定位为一个世界模拟器，一个能够构建元宇宙的有力候选者。

以往的视频生成技术，往往局限于处理特定类别的视觉数据，如长度有限或固定尺寸的视频片段。然而，Sora的诞生打破了这些限制，它是一个通用的视觉数据模型，能够生成多样化的持续时间、宽高比和分辨率的视频和图像，甚至能够制作长达一分钟的高清视频。

这种前所未有的能力，让Sora在视频生成和图像处理领域展现出了巨大的潜力和灵活性。无论是社交媒体内容创作、电影制作预览、虚拟现实环境的构建，还是科研和教育中的视觉资料提供，Sora都预示着一个全新的视觉内容创作时代的到来。让我们一起探索Sora如何开启这个新时代的大门。

Sora的超能力：文本到视频的飞跃

Sora的核心魔法在于其先进的Diffusion-Transformer模型架构。这一架构融合了扩散模型和Transformer模型的技术，通过编码器-解码器架构处理含噪点的输入图像，并在每一步预测出更清晰的图像版本。Sora首先训练一个encoder，将视频从时间和空间两个维度上压缩到低维隐空间里，接着从隐空间里提取出一系列时空patches进行单次训练。这一过程类似于自然语言处理中的tokenization，将视频数据切分为小块，然后通过Transformer层进行编码。

视频生成的革命

Sora能够生成长达一分钟的视频，这在AI视频工具领域是一个巨大的飞跃。它不满足于单一场景的简单拼接，而是通过多个镜头的连贯组合，创造出一个完整的叙事。这种能力，就像是赋予了视频制作者无限的画布，让他们可以自由地绘制出任何想象中的场景。

尺寸的自由

Sora的灵活性体现在它能够生成不同尺寸的视频，无论是宽屏还是竖屏，都能完美适配各种设备。这种对尺寸的自由掌控，让Sora能够满足不同平台和观众的需求。以往，图像和视频的生成通常需要将采样视频进行大小调整、裁剪至标准尺寸，而事实上，研究发现在原始视频上进行采样会有更好的生成效果。Sora可以对1920×1080的横屏视频、1080×1920的垂直视频以及介于两者之间的所有视频规格进行采样，这让Sora可以直接为不同尺寸的设备创建内容。

视频原型的快速制作

Sora允许用户先在低分辨率下快速制作视频原型，然后再以全分辨率生成最终内容。这一过程，就像是从草图到完成作品的转变，既高效又方便。

图生成视频的创造力

Sora不仅能基于文本生成视频，还能基于图片和提示生成视频，这大大扩展了创作的边界，让任何创意都能在Sora的手中变为现实。

图片生成的多才多艺

Sora不仅能制作视频，还能生成高分辨率的静态图像，成为一个多才多艺的创意工具。无论是视觉艺术还是设计领域，Sora都能提供精美的静态图像，满足各种需求。

Sora的创意引擎：视频合成的无限可能

在视频编辑方面，Sora能够向前或向后扩展视频，比如在一段生成视频拓展出三个新视频，新视频的开头各不相同，但拥有相同的结尾。Sora还实现了从文本提示中编辑图像和视频的方法，比如将SDEdit技术应用于Sora，能实现零镜头转换改变视频风格的功能。用户还可以使用Sora在两个视频之间进行转场，实现完全不同主题和场景视频之间的无缝过渡。关键点如下：

扩展视频的魔力

Sora能够将一个视频片段向前或向后延伸，创造出无缝的无限循环视频。这就像是开启了一扇通往时间旅行的门，让你可以探索一个场景的过去和未来，为视频内容增添了无限的故事性和视觉吸引力。

视频到视频编辑的革新

Sora的扩散模型技术，让视频编辑变得前所未有的简单。只需输入文字提示，Sora就能理解你的创意意图，将晴朗的海滩变为雪地，或将日间场景转换为夜晚，甚至改变整个视频的艺术风格。这种技术让视频编辑变得轻松而富有创意。

视频连接的艺术

Sora能够在两个截然不同的视频之间创造出平滑的过渡，就像是一座连接不同世界的桥梁。无论是讲述跨越不同地点的故事，还是创造引人入胜的视觉效果，Sora的视频连接功能都能让视频内容更加丰富和吸引人。

图片生成的多才多艺

Sora不仅能制作视频，还能生成高分辨率（分辨率最高可达2048x2048）的静态图像，成为一个多才多艺的创意工具。无论是视觉艺术还是设计领域，Sora都能提供精美的静态图像，满足各种需求。

涌现能力的奇迹

当Sora在大规模上训练时，展现出了一些令人惊叹的涌现能力。它能够模拟现实世界中的人类、动物和环境的某些方面，甚至模拟人工过程，如视频游戏。这些能力的出现，完全是规模效应的现象，预示着Sora在模拟物理和数字世界方面的潜力。

Sora的魔法：理解语言，创造生命

在语言理解方面，Sora也有可圈可点之处，提炼关键点如下：

文本描述的精准转化

从训练文本到视频生成需要大量带有相应文本字幕的视频，OpenAI将其图像生成模型的第三个版本DALL·E3的字幕技术（DALL·E 3中介绍的重新标注技术）应用到视频，首先训练一个具有高度描述性的字幕生成器模型，然后使用它为所有视频生成文本字幕，从而提高文本真实度以及视频的整体质量。这就像是为Sora配备了一本详细的说明书，让它能够更准确地理解和再现文本中描述的场景。

语义理解的深度

Sora研究团队还借助GPT将简短的用户提示转换为更为详细的指令，然后发送给视频模型，这让Sora能够准确遵循用户提示生成高质量视频，使其在理解语义上更加精准。这意味着，当你给Sora一个提示时，它不仅能够理解你的需求，还能根据这些提示生成高质量的视频内容。

Sora的剧场：多镜头叙事，风格统一

Sora的另一个神奇之处，在于它能够在一个视频中创造出多个镜头，同时保持角色和视觉风格的一致性。这为制作电影预告片、动画等需要多视角展示的内容提供了极大的便利，让创意的叙事方式更加多样化。

3D一致性与角色连贯性

Sora宣称其可以做到对3D空间中元素的一致性处理，以及在多镜头中保持角色的连贯性。这为创造沉浸式体验提供了强大的支持。

Sora的挑战与创新：模拟真实世界的物理规则

Sora它在模拟复杂物理场景和理解特定因果关系时仍面临挑战。比如，视频中的人物咬了一口饼干，Sora可能还未能展现出饼干上的咬痕。不过，这也正是Sora成长和完善的动力所在。

尽管如此，但它的创新之处在于能够模拟真实物理世界的运动，如物体的移动和相互作用。Sora能够生成带有动态摄像头运动的视频，保持人物和场景元素在三维空间中的一致性运动规律。这是朝着实现通用人工智能（AGI）的重要一步。

与其说Sora是一个视频生成器，更准确的形容是一个数据驱动的物理引擎，对虚拟和现实世界进行模拟。在这个过程中，模拟器通过去噪等方法来学习复杂的视觉渲染，构建出更为直观的效果。

Sora的训练之道：从视觉数据到创意生成

根据OpenAI的技术报告，Sora本质上是一种通用的视觉数据模型，它可以生成跨越时间、横竖比和分辨率的视频和图像，生成最多达一分钟的高清视频。OpenAI借助了与GPT模型类似的Transformer架构，该架构在视频和图像潜在代码的时空补丁上运行。

Sora 采用了Diffusion 和 Transformer 融合的架构。不同于采用插帧的多步骤处理方式来达到长视频的生成，即通过单一步骤直接生成高质量的视频。从底层来看，这是一种「一步到位」的实现方法，基于单一模型完全端到端生成，不涉及中间的插帧和其他多步骤的处理，文本到视频的转换是直接且连续的。

因此，在图文任务上取得的成果往往能够在视频任务中得到复用。Sora 采用了 DALL・E 3 的重标注技术，通过为视觉训练数据生成详细的描述，使模型能够更加准确地遵循用户的文本指令生成视频。这些在图文任务中积累的工程经验为视频模型的研发打下了基础。因为视频本质上是图像的流，相当于是图像在时间轴上做了一个扩增。

视觉数据的压缩与分解

Sora的训练始于对视频和图片的视觉数据进行压缩，随后将其分解为众多小块，即视觉补丁。这一过程类似于将一段完整的故事拆解为一幕幕小片段，让计算机能够更高效地学习和理解视频中的信息。

扩散模型的创新应用

Sora采用的扩散模型，可以想象为一个超级洗衣机，它能够接收带有噪声的视频块，通过清洗指令（即文字提示），预测并恢复出视频块的原始清晰状态。这种能力使得Sora在视频和图像处理方面展现出了强大的灵活性和扩展性。

视频样本质量的显著提升

通过实验发现，随着训练计算量的增加，Sora生成的视频样本质量有了显著的提升。这一发现证实了扩散变换器在视频模型方面的有效性和扩展潜力。

Sora体验：来自内测艺术家的反馈

Sora目前尚未对所有人开放，但OpenAI已经开始向部分创意专业人士提供访问权限，Shy Kids，一个位于多伦多的数字制作团队，被选中使用Sora制作短片“air head”，用于OpenAI的推广。尽管他们在使用Sora时拥有相当大的创作自由，但后期制作艺术家Patrick Cederberg在接受采访时透露，Sora的使用并非如外界所想象的那样简单。

尽管OpenAI的宣传强调了Sora能够独立制作短片，但实际上，这些短片的制作涉及了专业的故事板、编辑、调色以及后期工作，如描边和视觉效果。这类似于苹果宣称的“用iPhone拍摄”，却未展示背后的专业设备和后期处理。

Sora的输出需要仔细观察，以排除不需要的元素，且在生成过程中，角色或摄像机的精确定时和移动并不是真正可能的。Cederberg指出，Sora的模型经常在气球上生成不期望的脸或绳子等元素，这些元素需要在后期去除，这是一个耗时的过程。此外，Sora在理解电影制作的日常语言方面存在不一致性，这让团队感到惊讶。他们进行了数百代的尝试，每一代为10到20秒，最终只使用了少数几代。

版权方面，Sora表现出了对侵权行为的识别能力，例如，它会拒绝生成“星球大战”的片段，即使用间接的描述来尝试生成相同内容也会被拒绝。这引发了关于Sora是否在特定内容上进行训练以识别侵权行为的疑问。

结论：尽管Sora是一个强大而有用的工具，但它并不是一个能够从头开始独立创作电影的工具。但是，随着技术的进一步发展，Sora在电影制作中的应用潜力无疑是巨大的。

这里还是贴下视频链接，因为气球头真的蛮有创意蛮好玩的

Sora的局限性与未来展望

尽管Sora展现了诸多涌现能力，但它目前还存在一些限制，如在模拟某些基本物理互动过程（如玻璃碎裂）时的准确性，以及长时间样本中的连贯性问题。

OpenAI坦言，它可能难以准确模拟复杂场景的物理特性，可能无法理解因果关系。例如，视频中的人物咬了一口饼干，但饼干可能没有咬痕。该模型还可能混淆空间细节，例如左右混淆，难以精确呈现随时间推移发生的事件等。

Sora对AIGC的意义：世界模型开启新篇章

Sora发布后不久，360集团创始人周鸿祎在微博中表示：“这都是大模型的功劳，OpenAI训练这个模型应该会阅读大量视频，一幅图胜过千言万语，而视频传递的信息量又远远超过一幅图，这就离AGI（通用人工智能）不远了，可能一两年就可以实现。”他表示，Sora实现了对现实世界的理解和对世界的模拟两层能力，这样产生的视频才是真实的，才能跳出2D的范围模拟真实的物理世界。这也代表未来的方向，有强劲的大模型做底子，基于对人类语言的理解、对人类知识和世界模型的了解，再叠加很多其他的技术，就可以创造各个领域的超级工具。他预测，Sora至少将对机器人具身智能和自动驾驶带来巨大影响。

OpenAI在Sora的技术报告中表示，视频生成模型是构建物理世界通用模拟器的有效途径，Sora是一个能够理解和模拟现实世界的模型，是实现通用人工智能的重要里程碑。

Sora的出现对AIGC领域意义重大。它不仅为创意产业带来了新的可能性，也为研究者提供了探索人工智能如何更好地理解和模拟复杂动态世界的机会。随着技术的不断发展，以OpenAI的布局能力，我们还是可以期待Sora以及类似的模型在未来将如何改变视频制作、游戏开发、教育和娱乐等多个领域。

OpenAI Sora 团队Tim Brooks 和 Bill Peebles 在AGI House 的演讲关键内容