AI知识库

53AI知识库

学习大模型的前沿技术与行业应用场景


灵活的文本编码器
发布日期:2024-06-13 05:29:28 浏览次数: 1757


6月12日又一个重磅信息,Stable Diffusion 3正式开源。我们今天回顾一下官网上面3月5日公布的技术文章。enjoy~

翻译:百度如流插件AI翻译



关键要点

  • 今天,我们将发表我们的研究论文,深入探讨Stable Diffusion 3的底层技术。

  • 基于人类偏好评估,Stable Diffusion 3在排版和即时遵守方面优于最先进的文本到图像生成系统,如DALL·E 3、Midtravel v6和Ideogram v1。

  • 我们新的多模式扩散转换器(MMDiT)架构为图像和语言表示使用了单独的权重集,与以前版本的稳定扩散相比,这提高了文本理解和拼写能力。

  • 在我们宣布Stable Diffusion 3的早期预览后,今天我们将发表研究论文,概述我们即将发布的模型的技术细节。该论文将很快在arXiv上访问,我们邀请您注册等待名单,参加早期预览。

表现

以SD3为基线,该图表根据视觉美学、即时跟随和排版的人类评估,概述了它在与竞争模型的竞争中获胜的领域。

我们将Stable Diffusion 3的输出图像与其他各种开放模型进行了比较,包括SDXL、SDXL Turbo、Stable Cascade、Playground v2.5和Pixart-α,以及DALL·E 3、Midtravel v6和Ideogram v1等闭源系统,以基于人类反馈评估性能。在这些测试中,向人类评估者提供了每个模型的示例输出,并要求他们根据模型输出与提示上下文的紧密程度(“提示跟随”)、基于提示的文本渲染程度(“排版”)以及哪幅图像具有更高的美学质量(“视觉美学”)来选择最佳结果。

从我们的测试结果来看,我们发现Stable Diffusion 3在所有上述领域都等于或优于当前最先进的文本到图像生成系统。

在早期的消费者硬件上进行的未优化推理测试中,我们最大的SD3模型具有8B个参数,适合RTX 4090的24GB VRAM,当使用50个采样步骤时,需要34秒才能生成分辨率为1024x1024的图像。此外,《Stable Diffusion 3》在首次发布期间将有多种变体,从800米到8B米的参数模型,以进一步消除硬件障碍。

体系结构详细信息

对于文本到图像的生成,我们的模型必须同时考虑文本和图像这两种模式。这就是为什么我们称这种新架构为MMDiT,指的是它处理多种模态的能力。与之前版本的稳定扩散一样,我们使用预训练的模型来导出合适的文本和图像表示。具体来说,我们使用三种不同的文本嵌入器——两种CLIP模型和T5——来编码文本表示,并使用一种改进的自动编码模型来编码图像标记。

我们改进的多峰扩散转换器块的概念可视化:MMDiT。

SD3架构建立在扩散变压器的基础上(“DiT”,Peebles&Xie,2023)。由于文本和图像嵌入在概念上有很大不同,我们对这两种模式使用了两组独立的权重。如上图所示,这相当于每个模态都有两个独立的变换器,但将两个模态的序列连接起来进行注意力操作,这样两种表示都可以在自己的空间中工作,同时考虑另一种。

当在训练过程中测量视觉保真度和文本对齐时,我们新颖的MMDiT架构优于已建立的文本到图像骨干,如UViT(Hoogeboom等人,2023)和DiT(Peebles&Xie,2023年)。

通过使用这种方法,信息可以在图像和文本标记之间流动,以提高生成的输出中的整体理解和排版。正如我们在论文中所讨论的,这种架构也很容易扩展到视频等多种模式。

得益于Stable Diffusion 3改进的即时跟随功能,我们的模型能够创建关注各种不同主题和质量的图像,同时对图像本身的风格保持高度灵活。

通过重新加权改善整流流量

Stable Diffusion 3 采用整流流(RF)公式(Liu等人,2022;Albergo&Vanden-Eijnden,2022;Lipman等人,2023),其中数据和噪声在训练期间连接在线性轨迹上。这导致了更直的推理路径,从而允许以更少的步骤进行采样。此外,我们在训练过程中引入了一种新的轨迹采样时间表。这个时间表给轨迹的中间部分赋予了更多的权重,因为我们假设这些部分会导致更具挑战性的预测任务。我们使用多个数据集、指标和采样器设置进行比较,针对60个其他扩散轨迹(如LDM、EDM和ADM)测试了我们的方法。结果表明,虽然以前的RF制剂在少步采样条件下表现出改进的性能,但它们的相对性能随着多步采样而下降。相比之下,我们的重新加权射频变体持续提高性能。

缩放整流流量变压器模型

我们使用重新加权的整流流公式和MMDiT骨架对文本到图像合成进行了缩放研究。我们训练了从15个具有450M参数的块到38个具有8B参数的块的模型,并观察到验证损失随着模型大小和训练步骤的变化而平滑减少(上排)。为了测试这是否转化为对模型输出的有意义的改进,我们还评估了自动图像对齐指标(GenEval)以及人类偏好得分(ELO)(最下面一行)。我们的结果表明,这些指标与验证损失之间存在很强的相关性,表明后者是整体模型性能的有力预测指标。此外,缩放趋势没有显示出饱和的迹象,这让我们乐观地认为,我们可以在未来继续提高模型的性能。

灵活的文本编码器

通过删除用于推理的内存密集型4.7B参数T5文本编码器,SD3的内存需求可以显著降低,性能损失很小。如上图“性能”部分所示,删除此文本编码器不会影响视觉美观(胜率为T5:50%),只会略微降低文本依从性(胜率46%)。然而,我们建议将T5包括在内,以便在生成书面文本时使用SD3的全部功能,因为我们在没有它的情况下观察到排版生成的性能下降更大(胜率38%),如以下示例所示:

当呈现涉及许多细节或大量书面文本的非常复杂的提示时,删除T5进行推理只会导致显著的性能下降。上图显示了每个示例的三个随机样本。



53AI,企业落地应用大模型首选服务商

产品:大模型应用平台+智能体定制开发+落地咨询服务

承诺:先做场景POC验证,看到效果再签署服务协议。零风险落地应用大模型,已交付160+中大型企业

联系我们

售前咨询
186 6662 7370
预约演示
185 8882 0121

微信扫码

与创始人交个朋友

回到顶部

 
扫码咨询