AI知识库

53AI知识库

学习大模型的前沿技术与行业应用场景


SD 3:已开源,附即用方案,附测试对比
发布日期:2024-06-13 05:06:56 浏览次数: 1827



其他信息


模型速览

模型为 2B,针对消费级 PC 和企业级 GPU 优化,擅长处理复杂提示并生成高质量图像。用户可以通过 Stability Platform、Stable Assistant 和 Stable Artisan 进行试用,并与 NVIDIA 和 AMD 合作优化性能。


独特之处

  • 逼真度:解决了手部和面部的常见瑕疵问题,生成高质量图像,无需复杂工作流程。

  • 精准理解:能够理解空间关系、构图元素、动作和风格的复杂提示。

  • 字体生成:借助 Diffusion Transformer 架构,在生成文本时实现前所未有的效果,没有伪影和拼写错误。

  • 资源高效:低显存占用,适合在标准消费级 GPU 上运行而不影响性能。

  • 精细调优:能从小数据集中吸收细微细节,适合定制化需求。


投稿自大佬:ZHO

ZHO - 真 · 赛博菩萨


不用下载,开箱即用

(需 Colab Pro)


项目地址

https://colab.research.google.com/drive/1pcr1otfG5hs5N7IqpwZdxcj4EbbYF7ot


SD3 Medium Base工作流(已加入工作流合集)

https://github.com/ZHO-ZHO-ZHO/ComfyUI-Workflows-ZHO


SD3 Medium 说明


1)基础模型 1+3:(上图)

主模型:sd3_medium

文本编码器:clip_g、clip_l、t5xxl_fp16/t5xxl_fp8_e4m3fn

使用:在 ComfyUI 中使用时需分别通过模型加载器和CLIP加载器加载,t5xxl是非必要项


2)融合了文本编码器的模型 2 个:(下图)

无T5:sd3_medium_incl_clips = sd3_medium + clip_g + clip_l

有T5:sd3_medium_incl_clips_t5xxlfp8 = sd3_medium + clip_g + clip_l + t5xxl_fp16/t5xxl_fp8_e4m3fn

使用:在 ComfyUI 中使用时直接用模型加载器加载主模型即可,无需CLIP加载器(如同之前的SD1.5或SDXL的基础工作流)




来自 Diffuseum 众测

我也是光荣一员

欢迎参与!!

https://wbe2qcwjls.feishu.cn/docx/ZGLcdZt7coQM1YxVmrpcBvb0nhb


宙宙

(需 Colab Pro)

之前听闻SD3开源版本和API表现效果会有差异,又看到开放的是一个不大的2B版本,所以接着更新了上次SD3 API和主流生图网站的测试对比文档。初步测试的感受:


  • 开源版本和API效果差别不大,开源还是很有诚意的!!

  • Medium在2B的体量下语义理解能力不错,对于多个意象的控制和API差不多,相较XL都有明显的提升;后期可以再搭配社区的延伸,上限很高

  • 开源版本的美学和API相比各有差异,艺术风格的表现上弱了点,但是写实类差别不大,甚至部分情形更佳

  • 本版本在对齐和安全上花费了大量努力,可以看出屏蔽了不少概念,些许矫枉过正,会出现雕塑穿内衣的情况

  • Medium生成超长文字在画面上时有时候会崩,API更稳定一些

测试

还有更多,等你来测...


53AI,企业落地应用大模型首选服务商

产品:大模型应用平台+智能体定制开发+落地咨询服务

承诺:先做场景POC验证,看到效果再签署服务协议。零风险落地应用大模型,已交付160+中大型企业

联系我们

售前咨询
186 6662 7370
预约演示
185 8882 0121

微信扫码

与创始人交个朋友

回到顶部

 
扫码咨询