微信扫码
与创始人交个朋友
我要投稿
这些模型的尺寸可高度定制,可在消费级硬件上运行,并且根据宽松的Stability AI 社区许可,可免费用于商业和非商业用途。现在可以从Hugging Face下载 Stable Diffusion 3.5 Large 和 Stable Diffusion 3.5 Large Turbo ,并在GitHub 上下载推理代码。
3.5 开放模型的特点
Stable Diffusion 3.5 版本在以下方面表现出色,使其成为市场上最可定制、最易于访
问的图像模型之一,同时在及时性和图像质量方面保持顶级性能:
可定制性:轻松微调模型以满足您的特定创作需求,或根据定制的工作流程构建应用程序。
高效性能:经过优化,可在标准消费硬件上运行,无需繁重工作,尤其是 Stable Diffusion 3.5 Medium 和 Stable Diffusion 3.5 Large Turbo 型号。
多样化输出:创建代表世界的图像,而不仅仅是一种类型的人,具有不同的肤色和特征,无需大量提示。
风格多样:能够生成各种风格和美感,如 3D、摄影、绘画、线条艺术以及几乎任何可以想象的视觉风格。
Stable Diffusion 3.5 Large Turbo 提供了同类模型中最快的推理时间,同时在图像质量和及时性方面保持了高度竞争力,即使与类似尺寸的非蒸馏模型相比也是如此。
是一种多模态扩散变换器 (MMDiT) 文本到图像模型(下图右边),具有对抗性扩散蒸馏 (ADD) 的特点,在图像质量、排版、复杂提示理解和资源效率方面具有改进的性能,重点是减少推理步骤。
MMDiT
这个在早期论文解读已经做过对应分析了,各位看官看这 Stable Diffsuion 3 —— 来自官方更新的黑魔法。这里再提一下,下图中重复了t次,每次 t 都加入噪声去完成扩散的采集,其中文本和图像都会通过 embedding 形式进行映射,这里原理和 CLIP (openAI 提出的图像文本对应)一致。然后加入 Transform 模型架构,注意力关注特征本身,最终 MLP 多层感知机,进行前馈传播输出到下一层。
ADD (Adversarial Diffusion Distillation)
对抗扩散蒸馏 (ADD),这是一种新颖的训练方法,只需 1-4 步即可高效采样大规模基础图像扩散模型,同时保持高图像质量。使用分数蒸馏 ( 一文了解 2024 China 谷歌 IO AI 技术点 )来利用大规模现成的图像扩散模型作为教师信号,并结合对抗损失,以确保即使在一个或两个采样步骤的低步长范围内也能实现高图像保真度。
对于对抗性目标,生成的样本 x (xs, s) 和真实图像 x0 被传递给鉴别器,然后判别器区分它们。鉴别器和对抗性损失的设计就是满足判别器最终生成图满足判别器标准。为了从 DM 老师模型那里提取知识,我们将学生样本 x (xs, s) 与老师的前向过程一起扩散,并使用老师的扩散模型去噪预测 xψ (x,t),其中利用教师模型作为蒸馏损失的重建目标。
对抗性损失
通过投影文本嵌入ctext在文本到图像设置中使用附加信息来调节鉴别器。与标准GAN训练相比,团队的训练配置还允许对给定图像进行条件处理。对于 τ < 1000,ADD 学生模型从输入图像 x0 接收一些信号。因此,对于给定的生成样本x (x, s),可以根据来自 x0 的信息来调节鉴别器。这鼓励 ADD 学生模型有效地利用输入。
白话讲解,想象一下,有两个队伍在玩一个游戏,一个是生成队,一个是判别队。生成队的任务是尽可能地制造出真实的图像,而判别队的任务是分辨出哪些图像是真的,哪些是生成队造出来的假货。对抗损失就是这个游戏的规则之一,它确保生成队不能偷懒,必须不断进步,制造出越来越逼真的图像,否则就会被判别队识破。回到上面公式说明,xθ 表示学生模型输出的图像,而 x0 表示真实的干净图像。这里的 Dk是判别器的第 k 个头,它尝试区分真假图像。Fk 是特征提取网络的第 k 层,它提取图像的特征。公式就是求和当前所有期望值。学生模型的目标是最大化这个对抗损失,这意味着它希望判别器把它生成的图像判断为真实图像。换句话说,学生模型希望判别器在看到它生成的图像时上当。
蒸馏损失
白话讲解,上图这里的 xθ 表示学生模型输出的图像,xψ 表示老师模型输出的图像,而 x0 表示真实的干净图像。而 d 是一个距离函数,用来衡量学生模型的输出和老师模型的输出之间的差异。通常使用欧几里得距离,也就是两点之间的直线距离。c(t) 是一个权重函数,它根据当前的噪音水平来调整损失。在更高噪音水平下,我们总希望学生模型能够更关注老师模型的输出。而 sg 是一个停止梯度的符号,意味着我们期望已经达到,在这一步不计算梯度,因为关注只是想要老师模型的输出,而不是它的内部状态。
总结
Stable Diffusion 3.5 Large Turbo 引入了对抗性扩散蒸馏,这是一种将预训练扩散模型蒸馏成快速、几步图像生成模型的通用方法。团队结合了对抗性和分数蒸馏目标来蒸馏,通过鉴别器利用真实数据,通过扩散教师模型利用结构理解使在单步或两步的超快速采样机制中表现尤为出色,事实上,使用四个采样步骤,模型优于广泛使用的多步骤生成器,如 SDXL、IF 和 OpenMUSE。
53AI,企业落地应用大模型首选服务商
产品:大模型应用平台+智能体定制开发+落地咨询服务
承诺:先做场景POC验证,看到效果再签署服务协议。零风险落地应用大模型,已交付160+中大型企业
2024-10-30
Cohere推出多模态 AI 搜索模型 Embed3了
2024-10-30
GPT-4o只考了21分:AI视觉推理能力受到严重质疑
2024-10-29
【文档智能】文档解析揭秘:文档结构化信息提取技术、数据集综述
2024-10-29
Midjourney又更新,AI版的PS来了
2024-10-28
AI时代的人性化交互:语音交互技术
2024-10-28
Stable Diffusion 3.5来了!更真实,更可控,更开放!魔搭社区推理最佳实践
2024-10-28
360在图文多模态大模型领域的突破与实践
2024-10-28
一块显卡理解一部完整电影!智源联合多所高校推出小时级的超长视频理解大模型Video-XL
2024-06-17
2024-05-30
2024-07-11
2024-06-17
2024-08-06
2024-08-30
2024-04-21
2024-09-12
2024-06-26
2024-07-11
2024-09-26
2024-09-26
2024-09-01
2024-07-31
2024-07-25
2024-07-19
2024-07-15
2024-07-15