我要投稿

Sora：大视觉模型的背景、技术、局限性

发布日期：2024-09-04 07:16:22 浏览次数： 2674

作者：人工智能知识与实践

微信搜一搜，关注“人工智能知识与实践”

1、简介

Sora 是一种文本到视频生成 AI 模型，由 OpenAI 于 2024 年 2 月发布。该模型经过训练，可以根据文本指令生成现实或想象场景的视频，并显示出模拟物理世界的潜力。

与以前的视频生成模型相比，Sora 的特点是能够生成长达 1 分钟的高质量视频，同时保持对用户文本指令的遵守。Sora 的这一进展体现了长期人工智能研究使命，即为人工智能系统（或人工智能代理）提供理解运动中的物理世界并与之交互的能力。这涉及开发人工智能模型，该模型不仅能够解释复杂的用户指令，而且能够应用这种理解通过动态和上下文丰富的模拟来解决现实世界的问题。

2、Sora原理

Sora 概述从本质上讲，Sora 是一个具有灵活采样维度的扩散变压器，如图所示。它由三个部分组成：

（1）时空压缩器首先将原始视频映射到潜在空间。

（2）ViT 然后处理标记化的潜在表示并输出去噪的潜在表示。

（3）类似 CLIP的调节机制接收 LLM 增强的用户指令和潜在的视觉提示，以指导扩散模型生成风格或主题视频。经过多次去噪步骤，获得生成视频的潜在表示，然后使用相应的解码器映射回像素空间。

逆向工程：Sora 框架

特点1：可变的持续时间、分辨率、宽高比

Sora 的一个显着特征是它能够训练、理解和生成原始尺寸的视频和图像。传统方法通常会调整视频大小、裁剪或调整视频的长宽比以适应统一的视频和图像。标准——通常是具有固定低分辨率的方形框架的短剪辑。这些样本通常以更宽的时间步长生成，并依赖于单独训练的帧插入和分辨率渲染模型作为最后一步，从而导致视频不一致。Sora 利用扩散变压器架构，是第一个拥抱视觉数据多样性的模型，可以以多种视频和图像格式进行采样，范围从宽屏 1920x1080p 视频到垂直 1080x1920p 视频以及介于两者之间的一切，而不影响其原始尺寸。

对原始大小的数据进行训练可以显着改善生成视频的构图和框架。经验发现表明，通过保持原始的纵横比，Sora 实现了更加自然和连贯的视觉叙事。Sora 与在统一裁剪的方形视频上训练的模型之间的比较显示出明显的优势。Sora 制作的视频表现出更好的取景效果，确保在场景中完全捕捉到拍摄对象，而不是有时会导致视图被截断来自方形裁剪。

特点2：统一视觉表示

为了有效地处理不同的视觉输入，包括具有不同持续时间、分辨率和纵横比的图像和视频，一个关键方法是将所有形式的视觉数据转换为统一的表示，这有利于生成模型的大规模训练。具体来说，Sora 通过首先将视频压缩到低维潜在空间，然后将表示分解为时空补丁来修补视频。

特点3：视频压缩网络

空间补丁压缩。这涉及到改造将视频帧分成固定大小的块，Sora 的视频压缩网络（或视觉编码器）旨在降低输入数据（尤其是原始视频）的维度，并输出在时间和空间上压缩的潜在表示，例如ViT 将图像分割成固定大小的块，线性嵌入每个块，添加位置嵌入，并将生成的向量序列馈送到标准Transformer 编码器。

时空补丁压缩。该技术旨在封装视频数据的空间和时间维度，提供全面的表示。该技术不仅仅分析静态帧，还考虑帧之间的运动和变化，从而捕获视频的动态方面。3D 卷积的利用成为实现这种集成的一种简单而有效的方法。与空间补丁压缩类似，使用具有预定卷积核参数（例如固定内核大小、步幅和输出通道）的时空补丁压缩由于视频输入的不同特性，导致潜在空间的尺寸发生变化。这种变化主要是由正在处理的视频的不同持续时间和分辨率驱动的。

特点4：时空潜在补丁

压缩网络部分仍然存在一个关键问题：在将补丁输入扩散变压器的输入层之前，如何处理潜在空间维度的可变性（即来自不同视频类型的潜在特征块或补丁的数量）。根据 Sora 的技术报告和相应的参考文献，补丁 n 包 (PNP) 可能是解决方案。PNP 将来自不同图像的多个补丁打包在单个序列中，如图所示。

该方法通过删除标记来适应对可变长度输入的有效训练。这里，补丁和令牌嵌入步骤需要在压缩网络中完成，但是Sora可以像Diffusion Transformer那样进一步补丁变压器令牌的潜在特征。

Sora 以原始大小的数据进行训练。虽然有几个好处，但它带来了一些技术挑战，其中最重要的挑战之一是神经网络本身无法处理可变持续时间、分辨率和长宽比的视觉数据。

3、Sora核心

1、LLM

语言教学遵循用户主要通过自然语言指令（称为文本提示）参与生成式 AI 模型。模型指令调整旨在增强人工智能模型准确遵循提示的能力。这种改进的提示跟随功能使模型能够生成更类似于人类对自然语言查询的响应的输出。

大语言模型遵循指示的能力已被广泛探索。这种能力使大语言模型能够在没有示例的情况下阅读、理解描述未见过的任务的指令并做出适当的反应。通过对混合任务的大语言模型进行微调，获得并增强快速跟随能力格式化为指令，称为指令调整。在未见过的任务上，经过指令调整的大语言模型显着优于未经调整的大语言模型。指令跟踪能力将大语言模型转变为通用任务解决者，标志着人工智能发展史上的范式转变。

2、文本到图像

DALL·E 3 中的后续指令通过标题改进方法来解决，该方法假设训练模型的文本图像对的质量决定了所得文本到图像模型的性能。数据质量差，特别是噪声数据和简短标题的普遍存在，遗漏了大量视觉信息，导致许多问题，例如忽略关键词和词序，以及误解用户意图。标题改进方法通过使用详细的描述性标题重新为现有图像添加标题来解决这些问题。该方法首先训练图像字幕器（一种视觉语言模型）来生成精确且描述性的图像字幕。然后，字幕生成器生成的描述性图像字幕将用于微调文本到图像模型。这种图像标题改进方法引入了一个潜在的问题：实际用户提示与训练数据中的描述性图像描述之间不匹配。DALL·E 3 通过上采样解决了这个问题，其中 LLM 用于将简短的用户提示重写为详细而冗长的指令。这确保了模型在推理时间内收到的文本输入与模型训练中的文本输入一致。

3、文本到视频

为了增强跟随指令的能力，Sora 采用了类似的字幕改进方法。该方法是通过首先训练能够生成视频详细描述的视频字幕器来实现的。然后，将该视频字幕应用于训练数据中的所有视频，以生成高质量的（视频、描述性字幕）对，这些对用于对 Sora 进行微调，以提高其指令跟踪能力。

4、讨论

Sora在精确理解和执行人类复杂指令方面表现出了非凡的天赋。该模型擅长创建具有各种角色的详细视频，所有这些都设置在精心制作的设置中。Sora 的一个特别令人印象深刻的特性是它能够制作长达一分钟的视频，同时确保故事讲述的一致性和引人入胜。与之前专注于较短视频片段的尝试相比，这标志着一个重大改进，因为 Sora 的扩展序列展示了清晰的叙事流程，并保持了从开始到结束的视觉一致性。此外，Sora 的独特之处在于生成更长的视频序列，捕捉复杂的动作和交互，突破了早期模型只能处理短片和基本图像的限制。这一进步标志着人工智能驱动的创意工具向前迈出了一大步，使用户能够将书面故事转化为生动的视频，其细节和复杂程度是以前无法达到的。

4.1 限制

物理现实主义的挑战

Sora 作为一个模拟平台，表现出一系列限制，削弱了其准确描述复杂场景的有效性。最重要的是它对复杂场景中物理原理的处理不一致，导致无法准确复制因果关系的具体例子。例如，吃一部分饼干可能不会产生相应的咬痕，这说明系统偶尔会偏离物理合理性。这个问题延伸到了运动模拟，Sora 生成的运动挑战了现实的物理建模，例如物体的不自然变换或对椅子等刚性结构的不正确模拟，从而导致不切实际的物理交互。当模拟对象和角色之间复杂的交互时，挑战会进一步增加，有时会产生倾向于幽默的结果。

空间和时间的复杂性

Sora 有时会误解给定提示中与物体和角色的放置或排列相关的指令，从而导致方向混乱（例如，混淆左与右）。此外，它在保持事件的时间准确性方面面临挑战，特别是在遵守指定的摄像机移动或序列时。这可能会导致场景的预期时间流发生偏差。在涉及大量角色或元素的复杂场景中，索拉倾向于插入不相关的动物或人。此类添加可以显着改变最初设想的场景构图和氛围，偏离计划的叙事或视觉布局。此问题不仅影响模型准确地重新创建特定场景或叙述的能力，还会影响其生成与用户期望密切相关的内容的可靠性以及生成输出的一致性。

人机交互 (HCI) 的局限性

Sora 虽然在视频生成领域显示出潜力，但在人机交互方面面临着重大限制。这些限制主要表现在用户与系统交互的一致性和效率上，特别是在对生成的内容进行详细修改或优化时。例如，用户可能会发现很难精确指定或调整视频中特定元素的呈现，例如动作细节和场景转换。此外，Sora 的限制理解复杂语言指令或捕获细微语义差异的过程可能会导致视频内容无法完全满足用户的期望或需求。这些缺点限制了 Sora 在视频编辑和增强方面的潜力，也影响了用户体验的整体满意度。使用限制。

关于使用限制，OpenAI 尚未设定公众访问 Sora 的具体发布日期，强调在广泛部署之前对安全和准备采取谨慎的态度。这表明Sora可能仍需要在安全、隐私保护、内容审核等方面进行进一步的改进和测试。而且，目前Sora只能生成最长一分钟的视频，而且根据公开的案例，大多数生成的视频只有几十秒长。这一限制限制了其在需要更长内容显示的应用中的使用，例如详细的教学视频或深入的故事讲述。这一限制降低了 Sora 在内容创建方面的灵活性