我要投稿

Stable Diffusion 3架构解析

发布日期：2024-05-16 05:56:15 浏览次数： 3959

作者：大魏分享

微信搜一搜，关注“大魏分享”

一、扩散模型的正向和反向过程

假设我们有一幅完整的图像，我们可以将它比作一幅清晰的风景画。在扩散模型的正向过程（添加噪声）中，我们逐渐向这幅画上增加噪点，就像在画布上喷洒墨水。每次喷洒的墨水量都很少，但经过多次喷洒后，整幅画逐渐被墨水覆盖，变得模糊不清，最终看起来只是一片混沌的墨水斑点。

接下来是反向过程（移除噪声），这就像是我们有一个能逆转喷洒墨水过程的魔法工具。通过这个工具，我们可以一步一步地移除画布上的墨水，逐渐恢复出之前的风景画。模型的训练过程实际上就是教模型如何使用这个工具，从一片混沌的墨水中逐渐找回原来的画作。

通过这个过程，模型学会了如何从随机噪声中一步步恢复出清晰的图像。这样，在生成新图像时，我们可以给模型一片完全随机的噪声斑点，它就可以根据所学到的内容逐渐将这些噪声“修复”成一幅完整的图像。

二、.Stable Diffusion 和 DiT

Stable Diffusion 2（SD2）是基于潜在扩散模型（Latent Diffusion Model, LDM）的。LDM 是一种特定类型的扩散模型，它在潜在空间中进行扩散过程。SD2 使用 U-Net 架构作为编码器和解码器，将图像压缩到潜在空间，并在潜在空间中应用扩散过程。

U-Net 是一种用于图像分割的卷积神经网络架构，由 Olaf Ronneberger 等人在 2015 年提出。它最初是为生物医学图像分割设计的，但后来在许多计算机视觉任务中得到了广泛应用。

U-Net 的名称来自于它的架构外观，类似字母 “U” 。其主要由两部分组成：

编码器（下采样路径）：这个部分逐渐降低输入图像的空间分辨率，并提取特征。它通常由多个卷积层和池化层组成，以逐步减少特征图的大小并增加特征的数量。
解码器（上采样路径）：这个部分逐渐恢复图像的空间分辨率。它通常使用反卷积（上采样）层逐渐增加特征图的大小，并结合编码器路径中的特征，以提高生成的图像质量。

U-Net 的一个关键特点是它在编码器和解码器之间存在跳跃连接，这样在解码过程中可以更好地保留编码器中的空间特征信息，从而提升生成结果的精度和质量。U-Net 架构在扩散模型中也得到了应用，特别是用于生成高质量的图像。

Stable Diffusion 3的架构基于Diffusion Transformer (DiT)，而不是U-Net。这是一种新的AI创建图像的方式，它用一个处理图片小部分的系统替换了通常的图像构建块。此外，Stable Diffusion 3还结合了流匹配。 DIT 则是结合了扩散模型和 Transformer 架构的模型。

Stability AI最新发布了一个性能增强的文本到图像模型——Stable Diffusion 3，它在多主题提示处理、图像质量以及拼写能力方面展现出了卓越表现。目前该模型尚处于早期预览阶段，对于有意参与并提供改进建议的用户，现已开放等待名单，以便在全面推出之前进行进一步完善。

三、Stable Diffusion 3的亮点

Stable Diffusion 3将Diffusion Transformer结构与Flow Matching相结合，来看看这意味着什么。

性能与质量提升
Stable Diffusion 3的模型范围涵盖从8亿参数到80亿参数，这种多样化的规模和质量选择能够迎合不同的创意需求。该模型采用Diffusion Transformer架构并结合了Flow Matching技术，使其能够根据文本提示生成高质量的图像。Flow Matching（FM）是一种用来训练生成模型的新方法。生成模型的目标是学习数据的分布，然后生成与真实数据相似的新的数据。FM的独特之处在于它设计了一种训练方法，可以更快更高效地生成高质量的数据。
注重安全与责任
开发团队在培训、评估与部署各环节均引入了多项安全措施，防范潜在的滥用风险，强调安全、负责任的AI应用。研究员、专家以及社区正在持续进行符合道德规范的创新合作，将安全性和道德性放在重要位置。新版本Stable Diffusion中最激动人心的特性之一是其8亿参数的版本。这将极大地提升图像合成AI的易用性，与谷歌的Gemma 2b和微软的Phi-2语言模型的方向一致。

四、Diffusion Transformer结构技术概览

DiT结构结合了diffusion模型的强大能力和基于Transformer的可扩展性与灵活性。Diffusion模型通过迭代去除样本噪声的原则，在生成建模任务中获得了显著成功。著名的Transformer，擅长捕捉数据中的长距离相关性，在自然语言处理和计算机视觉领域取得了优异成绩。结合diffusion模型和Transformer的优点，能够生成更强大、更高效的模型，捕捉复杂的数据分布情况。

DiT的架构基础由一系列Transformer层构成，与标准Transformer模型（例如Vision Transformer或在自然语言处理中使用的Transformer架构）中的层类似。DiT在每一层中都融合了diffusion过程。这包括将diffusion机制集成到Transformer的自注意力机制当中。通常，DiT还包含了一个条件机制，用于类别条件图像生成。这个条件机制可以通过多种方式实现，如在输入序列中加入类别标记，或者让注意力机制依赖类别信息。

DiT在处理图像时也采取了分块方法，类似于视觉Transformer架构。图像的每个分块被展平成序列，再由Transformer层进行处理。DiT常使用自适应层归一化（adaLN）来增强训练稳定性和模型的表现。adaLN根据输入数据调整归一化参数，使模型能适应不同的输入分布特点。

DiT-XL/2-G模型在FID-50K指标上表现优异，并且在计算量方面相对较低，这意味着它在生成高质量图像的同时保持了较高的计算效率。

训练过程

DiTs通常采用标准的生成模型训练技术进行训练，例如最大似然估计或变分推断。训练数据被输入模型，模型参数通过迭代更新以最小化合适的损失函数，如训练数据的负对数似然。在训练过程中，模型可能还会采用额外技术，比如模型权重的指数移动平均（EMA）、数据增强和正则化，以提高性能和稳定性。

DiTs的一个关键优势是其可伸缩性。借助变压器架构的可伸缩性，DiTs可以有效处理大规模的生成模型任务，包括高分辨率图像生成。DiTs在基准数据集上展现出了令人印象深刻的性能，并在诸如Frechet Inception距离（FID）、Inception得分（IS）和精确度/召回率这样的图像质量指标上经常取得先进的结果。

上面这张图展示了扩散Transformer（Diffusion Transformer，DiT）模型的架构。图中分为三部分，分别描述了模型的整体架构和两种不同的DiT块的设计：带有自适应层归一化的DiT块和带有交叉注意力的DiT块。

左侧：DiT模型架构

输入的潜在变量（latent）被分解成多个patch，然后输入到DiT块中进行处理。
该模型可以处理带有噪声的潜在变量，经过线性变换和形状调整后进行层归一化，再进入多个DiT块中。
输入中还包括时间步长（timestep t）和标签（label y），用于表示扩散过程中的当前状态和条件信息。

中间：带有自适应层归一化的DiT块

该块主要由两个子块组成，每个子块都包括多头自注意力（Multi-Head Self-Attention）、点对点前馈网络（Pointwise Feedforward）和自适应层归一化（Adaptive Layer Norm）。
自适应层归一化通过缩放和偏移参数来调整数据分布，参数通过MLP（多层感知机）从条件信息中得出。
多头自注意力和点对点前馈网络分别处理输入特征，并经过归一化和缩放调整后结合。

右侧：带有交叉注意力的DiT块

该块在自注意力之外还引入了交叉注意力机制（Multi-Head Cross-Attention），用于处理输入数据和条件信息之间的交互。
该块首先对输入特征进行多头自注意力处理，然后对条件信息应用交叉注意力。
通过在序列维度上连接输入特征和条件信息，使得模型能够更好地利用条件信息进行生成。

DiT模型利用Transformer架构的优势在扩散模型中生成高质量图像。图中展示了两种不同的DiT块设计，分别通过自适应层归一化和交叉注意力来有效利用条件信息。这些设计使得模型能够在扩散过程中更好地生成符合条件的图像。

下面这张图展示了不同Transformer模型规模和patch（图像块）大小对生成图像质量的影响。图中以生成的狗的图像为例，从不同的Transformer规模和patch大小的组合中展示了生成结果。

横轴（Increasing transformer size）：

从左到右，Transformer模型的规模逐渐增大。
增大的Transformer规模通常表示模型参数量的增加，从而有更强的模型能力。

纵轴（Decreasing patch size）：

从上到下，patch的大小逐渐减小。
较小的patch大小意味着图像被分割成更小的块进行处理，因此模型可以捕捉到更细节的特征。

结论：

随着Transformer规模的增大（从左到右），生成的图像通常变得更清晰，细节更丰富。
随着patch大小的减小（从上到下），图像的细节也变得更丰富、更清晰。
最右下角的图像（最大Transformer规模，最小patch大小）通常显示出最好的生成效果，而最左上角的图像（最小Transformer规模，最大patch大小）生成效果最差。

这说明增大Transformer规模和减小patch大小可以显著提升生成图像的质量

Patch size（图像块大小）是指将输入图像分割成较小的块（称为patches）时，每个块的尺寸。在计算机视觉的Transformer模型中，例如Vision Transformer（ViT）和扩散模型中的DiT，图像通常不会直接作为一个整体被输入模型，而是会被分割成多个较小的块，每个块作为一个独立的输入单元。这些块的大小就是patch size。

输入维度的调整：将图像分割成patches可以将二维图像转换成类似一维序列的形式，从而适应Transformer模型的输入需求。
细节和特征表示：更小的patch size可以捕捉到图像中更细微的特征和细节。相反，较大的patch size会导致图像细节的丢失，但模型需要处理的输入块数量更少。
计算效率和性能：较小的patch size可以使模型捕捉到更多的细节信息，但同时也会增加计算负担。需要在计算复杂度和模型性能之间取得平衡。

在图像生成任务中，选择适当的patch size可以帮助模型更好地捕捉图像中的特征，从而提高生成效果。

五、Flow Matching

Flow Matching（FM）是一种用于训练连续归一化流（CNF）模型的新颖框架，旨在克服与传统训练方法相关的一些局限。它引入了一种无需模拟的方法论，利用条件结构高效地扩展到高维数据集，同时提供改进的采样和生成能力。

传统训练CNF模型的方法通常涉及计算成本高昂的模拟，特别是处理高维数据时。这些模拟可能会阻碍可伸缩性和效率。Flow Matching的目标是通过提供一个无需模拟的替代方案来解决这些挑战，此方案简化了训练过程，同时保持了高质量的采样和生成性能。

条件结构：FM依赖于条件概率路径和向量场来建模数据通过潜在空间的流动。通过基于相关变量的条件操作，FM能更有效地捕捉复杂的数据分布。
概率路径：FM不依赖于扩散过程或随机模拟，而是直接指定通过潜在空间的概率路径。这允许对数据生成过程进行更精确的控制。
向量场：FM利用向量场定义流动的动力学，指导数据从输入空间向潜在空间的转换。这些向量场可以优化，以匹配期望的概率路径。

FM训练方法论

无需模拟的方法：FM通过直接规定概率路径并相应地优化向量场，消除了对成本高昂模拟的需求。这使训练过程更快速和高效。
基于梯度的优化：FM采用基于梯度的优化技术迭代更新CNF模型参数，确保向期望的概率分布收敛。
条件流匹配目标：FM定义了一个新颖的目标函数——条件流匹配（CFM）目标，它允许无偏梯度估计和高效训练。FM已在不同分辨率的各种图像数据集中，包括CIFAR-10和ImageNet，展现出有效性。它在负对数似然（NLL）、样本质量（通过Frechet Inception距离，FID测量）和训练效率（通过功能评估次数，NFE测量）方面都达到了最先进的结果。与现有方法的比较实验凸显了FM的优越性能，特别是在收敛速度更快和采样效率提高方面。

我会进一步详细解释每个部分：

背景：生成模型是一类让电脑学习如何生成新数据的技术。比如，给它看大量真实的图片，然后让它生成一张从未见过的新图片。过去几年出现了很多新模型，比如扩散模型，通过逐渐添加噪声再逆向去噪来生成新图片。然而，这种方法通常需要很长的训练时间和大量的计算资源，生成图片的过程也比较慢。
CNF是什么：CNF（连续正则流）是一种生成模型的技术，它通过学习一个时间相关的向量场来将一种概率分布转换为另一种。简单来说，它是一组可以将随机数据（比如一堆噪点）变成复杂数据（比如一幅高清图像）的数学操作。在这个过程中，CNF可以调整自己以适应不同的目标任务。
什么是流匹配：流匹配是一种新的方法，用来训练CNF模型。它让模型学习一种特殊的“流”（数学公式），该流可以将随机噪点变成高质量的图片。研究人员通过提供目标和优化损失（即让模型生成的图片尽可能接近目标）来帮助模型学会这个流的公式。与之前的方法相比，流匹配不需要复杂的数值模拟，简化了训练过程。
条件流匹配：直接找到那个复杂的向量场很困难，研究人员提出了一种简化方法，叫条件流匹配。它通过引入条件概率路径和条件向量场，将复杂的问题分解成更简单的小问题。每次模型只需要学习其中一个小问题，逐渐把各个小问题的答案组合在一起，从而达到目标。
特例：论文中提出了两种特例：

扩散路径：这是一种从噪声生成清晰图片的路径，常用于扩散模型。它通过逐步减少噪声，在每一步都得到更清晰的图片。
最优传输路径：通过最优传输理论，可以设计一种直接从一种概率分布到另一种概率分布的路径，不需要中间的许多步骤。这种方法通过线性插值直接平滑地将两种概率分布连接起来。

实验结果：

样本质量：在质量测量上，流匹配产生的图片质量优于目前流行的扩散模型，在Frechet Inception Distance（FID）和Negative Log-Likelihood（NLL）两个指标上表现更好。
训练效率：流匹配在训练过程中，比扩散模型更快。在ImageNet数据集的不同分辨率上进行了测试，结果表明流匹配耗时更短。
生成效率：在生成图片时，流匹配比扩散模型快。相同的迭代次数下，流匹配能更快地产生高质量的图片。

结论：这项研究为生成模型提供了一种新的训练方式，可以让电脑通过更直接、更快的方法学会生成图片。通过这项技术，我们不仅可以提高图片的生成速度，还可以产生更高质量的图片。未来还可以探索如何将这项技术应用于更多种类的生成任务，比如文本和音频生成。

六、DiT和FM融合

Diffusion Transformer架构与Flow Matching的结合代表了文本到图像生成AI领域中一个有趣的路径。一

Diffusion Transformer架构将Transformer模型强大的序列建模能力与diffusion模型生成高质量图像的能力结合在一起。这种结合使模型能够有效捕捉文本提示与相应图像之间的复杂关系，从而产生更连贯、更符合上下文的输出。语言与图像之间的关系至关重要，因为最终模型理解人类语言及其含义并将其融入生成过程中时，我们将向更可控的图像生成系统迈进。

Flow Matching技术使得模型能学习图像数据的底层分布，并生成与这个分布紧密匹配的样本。通过将生成的图像与目标分布对齐，Flow Matching确保了输出在视觉上吸引人且呈现现实特征。根据Stability的研究人员表示，Diffusion Transformer架构与Flow Matching的整合显著提高了图像质量。模型能够生成具有更精细的细节、更锐利的纹理以及对输入文本提示更准确的表现的图片。这种对图像保真度的提升增强了整体用户体验，并拓宽了潜在应用领域的范围，如数字艺术、设计和娱乐等。

文本到图像生成的另一个挑战是处理含有多个主题的提示。因此，我们通常所见的大多数AI生成的图像，通常只会呈现单个人物。Diffusion Transformer架构与Flow Matching相结合，使得模型能够更准确、更连贯地处理复杂的多主题提示。这一能力允许用户基于细致的文本描述生成多样化和复杂的图像，这为创造性表达和故事讲述开辟了新的可能性。

Diffusion Transformer架构和Flow Matching的结合代表了文本到图像生成方法学的一大进步。通过利用两种方法的优势，这一创新框架提供了改进的建模能力、增强的图像质量以及在优先考虑安全和伦理的同时，有效处理多主题提示。

53AI，企业落地大模型首选服务商

产品：场景落地咨询+大模型应用平台+行业解决方案

承诺：免费场景POC验证，效果验证后签署服务协议。零风险落地应用大模型，已交付160+中大型企业