我要投稿

重磅发布！Stable Diffusion 3 Medium 终于开源，革新图像生成技术新时代

发布日期：2024-06-13 05:15:29 浏览次数： 2528 来源：猫头虎技术团队

关键词：Stable Diffusion 3 Medium, MMDiT, 文本到图像模型, 图像质量, 排版, 复杂提示理解, 资源效率,文末有AI绘画SD3学习交流群！

开创图像生成新时代

大家好，我是猫头虎?！今天要为大家介绍一款革命性的图像生成模型——Stable Diffusion 3 Medium。这款模型不仅提升了图像质量，还在排版和复杂提示理解方面表现出色，同时具备极高的资源效率。想了解更多关于这款模型的细节，请继续阅读下去！?

Model

Stable Diffusion 3 Medium 是一款多模态扩散变换器（MMDiT）文本到图像模型，其性能在图像质量、排版、复杂提示理解和资源效率方面有了显著提升。更多技术细节请参阅研究论文。

请注意：此模型发布于 Stability 非商业研究社区许可下。若需创作者或企业许可，请访问 Stability.ai 或联系我们获取商业许可详情。

模型描述

开发者：Stability AI
模型类型：MMDiT 文本到图像生成模型
模型描述：该模型可以根据文本提示生成图像。它使用了三种固定的预训练文本编码器（OpenCLIP-ViT/G、CLIP-ViT/L 和 T5-xxl）。

主要版本

sd3_medium.safetensors：这是 Stability AI 最先进的开放式文本到图像模型，包含 20 亿参数。这个模型的大小适合在消费者级 PC 和笔记本电脑以及企业级 GPU 上运行。它被认为是下一代文本到图像模型的标准。
sd3_medium_incl_clips.safetensors：这个模型版本包含了 CLIP 模型的功能，CLIP 是一个多模态模型，能够理解图像和文本之间的关系，从而提高生成图像的相关性和准确性。这使得模型在处理复杂提示时能够更好地遵循指令，生成更符合用户要求的图像。
sd3_medium_incl_clips_t5xxlfp8.safetensors：这个版本在包含 CLIP 功能的基础上，进一步集成了 T5-XXL-FP8 模型，这是一个大型的自然语言处理模型，用于改进文本理解和生成能力。这意味着模型在理解复杂的文本提示和生成高质量图像方面会有更好的表现。

许可

非商业用途：Stable Diffusion 3 Medium 在 Stability AI 非商业研究社区许可下发布。该模型可用于学术研究等非商业目的。
商业用途：此模型不可用于商业用途，除非从 Stability 获取单独的商业许可。专业艺术家、设计师和创作者可使用创作者许可。请访问 https://stability.ai/license 了解更多信息。

模型资源

本地或自托管使用推荐使用 ComfyUI 进行推理。

Stable Diffusion 3 Medium 可在 Stability API 平台上获取。

ComfyUI: https://github.com/comfyanonymous/ComfyUI
StableSwarmUI: https://github.com/Stability-AI/StableSwarmUI
技术报告: https://stability.ai/news/stable-diffusion-3-research-paper

训练数据集

训练模型时使用了合成数据和经过筛选的公开数据。模型预训练了 10 亿张图像，微调数据包括 3000 万高质量美学图像，专注于特定的视觉内容和风格，以及 300 万首选数据图像。

文件结构

├── comfy_example_workflows/
│ ├── sd3_medium_example_workflow_basic.json
│ ├── sd3_medium_example_workflow_multi_prompt.json
│ └── sd3_medium_example_workflow_upscaling.json
│
├── text_encoders/
│ ├── README.md
│ ├── clip_g.safetensors
│ ├── clip_l.safetensors
│ ├── t5xxl_fp16.safetensors
│ └── t5xxl_fp8_e4m3fn.safetensors
│
├── LICENSE
├── sd3_medium.safetensors
├── sd3_medium_incl_clips.safetensors
├── sd3_medium_incl_clips_t5xxlfp8.safetensors
└── ...

三个模型版本

sd3_medium.safetensors：这是 Stability AI 最先进的开放式文本到图像模型，包含 20 亿参数。这个模型的大小适合在消费者级 PC 和笔记本电脑以及企业级 GPU 上运行。它被认为是下一代文本到图像模型的标准。
sd3_medium_incl_clips.safetensors：这个模型版本包含了 CLIP 模型的功能，CLIP 是一个多模态模型，能够理解图像和文本之间的关系，从而提高生成图像的相关性和准确性。这使得模型在处理复杂提示时能够更好地遵循指令，生成更符合用户要求的图像。
sd3_medium_incl_clips_t5xxlfp8.safetensors：这个版本在包含 CLIP 功能的基础上，进一步集成了 T5-XXL-FP8 模型，这是一个大型的自然语言处理模型，用于改进文本理解和生成能力。这意味着模型在理解复杂的文本提示和生成高质量图像方面会有更好的表现。

使用场景

预期用途

用于生成艺术作品，并在设计和其他艺术过程中使用。
用于教育或创意工具。
研究生成模型，包括理解生成模型的局限性。

所有模型的使用都应符合可接受使用政策。

不在预期范围内的用途

模型未经过训练以生成对人物或事件的真实表述。因此，使用模型生成此类内容超出了模型能力的范围。

安全性

作为设计安全性和负责任 AI 部署方法的一部分，模型开发的各个阶段都实施了安全措施，从预训练模型到模型的持续开发、微调和部署。实施的一系列安全缓解措施旨在减少严重危害的风险，但开发者仍需根据其具体使用情况进行测试并应用其他缓解措施。更多关于安全性的方法，请访问安全页面。

评估方法

评估方法包括结构化评估和针对特定、严重危害（如儿童性虐待和剥削、极端暴力和血腥、色情内容和非自愿裸体）的内部和外部红队测试。测试主要在英语环境中进行，可能无法涵盖所有可能的危害。如同任何模型一样，模型可能在某些时候会生成不准确、带有偏见或令人反感的响应。

识别的风险和缓解措施

有害内容：训练模型时使用了筛选后的数据集，并实施了旨在平衡实用性和防止危害的安全措施。然而，这并不能保证所有可能的有害内容都已被删除。模型可能会在某些时候生成有毒或带有偏见的内容。所有开发者和部署者应谨慎行事，并根据其具体的产品政策和应用场景实施内容安全防护措施。
滥用：技术限制和开发者与最终用户的教育可以帮助缓解模型的恶意应用。所有用户必须遵守可接受使用政策，包括在应用微调和提示工程机制时。请参考 Stability AI 可接受使用政策，了解产品违规使用的信息。
隐私侵犯：开发者和部署者应遵守隐私法规，采用尊重数据隐私的技术。

总结

Stable Diffusion 3 Medium 是一款革命性的图像生成模型，通过其多模态扩散变换器技术，实现了卓越的图像质量和复杂提示理解。无论是用于艺术创作、教育工具还是生成模型研究，这款模型都将带来全新的体验。

53AI，企业落地应用大模型首选服务商

产品：大模型应用平台+智能体定制开发+落地咨询服务

承诺：先做场景POC验证，看到效果再签署服务协议。零风险落地应用大模型，已交付160+中大型企业

160+中大型企业正在使用53AI

立即咨询预约演示

百度智能云邀53AI：共创AI新纪元，启航智能新时代

2024-05-27

钉钉恒星计划：53AI与百余位企业家及钉钉生态伙伴，共议“AI 浪潮下的新机遇”

2024-05-22

热点资讯

本地部署大模型？看这篇就够了，Ollama 部署和实战

2024-08-13

一文带你了解大模型——智能体（Agent）

2024-05-28

全面对比dify、coze、streamlit、chainlit

2024-04-26

Cursor 一个真正让程序员产生危机感的 AI 编程工具

2024-08-21

16个具有“联网搜索”功能的AI：总有一个适合你！

2024-06-13

50+个AI大模型在不同领域的应用案例

2024-08-04

【深度】AI搜索产品深度分析-搜索原理和商业模式分析

2024-07-09

OpenAI o1与GPT4o的对比分析

2024-09-23

Claude中国官网正式上线！1:1还原官网，非套壳，国内直连

2024-07-18

“大数据+”医疗

2024-04-11

大家都在问

2025 AI Agent迷局：谁在玩真的，谁在演戏？

2025-01-10

杨芳贤｜AI 2.0时代，如何拥抱与驾驭大模型？

2025-01-09

深度长文｜AI的“巴别塔”：多Agent协同为何如此之难？