我要投稿

StoryDiffusion：用AI一键生成连贯故事图像

发布日期：2024-06-11 07:23:12 浏览次数： 5634 作者：AI技术巫

这次聊的是StoryDiffusion这款AI工具，它是由字节跳动和南开大学合作推出的，最大的特点就是生成一致性图像，也就是你提供一个故事情节，它能根据这个故事情节生成多张图片，这些图片的风格基本都是一致的，看起来就跟看真实的漫画的一样。

毋庸置疑，这款AI工具又带来了很多的商机，比如实现之前很火的AI故事绘本，或是直接用小说情节生成图片，然后利用剪映等工具生成我们常见的小说短视频。

值得一提的是，StoryDiffusion虽然能生成视频，但是它的视频并非是直接根据提示词生成的（像Sora一样），而是先生成多张风格一致的图片，然后再通过加速形成视频（视频的原理）。

那StoryDiffusion能生成什么风格的图片？

目前根据官网放出的图片来看，卡通动物、卡通人物以及真实人物的图片都能生成，取决于你使用的模型。

1、卡通动物示例图

2、卡通人物示例图

3、真实人物示例图

注：从上图也可以看到，StoryDiffusion生成的图片是可以同时拥有多个角色的（比如上面的人和狗），并非单一角色

那如何体验 StoryDiffusion 呢？这应该是大家比较着急的问题

1、方式一：自己部署

综合来看这种方式是不太推荐的，一是显卡要求较高，目测显存至少要20G（比之前腾讯混元的高多了），不过官方只是说大于20G用起来会比较好，没说低于20G就不能跑，但最少得多少就真没测过。二是部署也要花费一定时间成本，对不熟悉编程的朋友也不太友好。

2、方式二：Colab部署

这种方式看起来一般，官方在Github上提供了一份 Comic_Generation.ipynb，如果你熟悉Google的Colab的话，也可以直接丢在上面跑，Colab也提供了免费的GPU羊毛，不过据说这个免费羊毛的显存为15G，CPU为12G，估计也不够跑，等有空可以验证下

3、方式三：HuggingFace

目前 StoryDiffusion 在HuggingFace有免费的体验地址，但高峰期的话要等待，因为是多人抢占GPU，而且生成失败的概率也蛮高，但胜在不用自己部署 ?

体验地址：https://huggingface.co/spaces/YupengZhou/StoryDiffusion

偶尔蹲一下也是能成功的

哎，果然穷处处受限制呀！

现在只有最后一个问题了，假设部署后，如何使用StoryDiffusion 呢？

假设你部署成功后，浏览器应该会弹出这样的界面（假设你是用gradio），左边是参数调整区，右边是出图区

1、sd_type

这个参数其实就是让你选生图大模型，有点像我们提到的Stable Diffusion的底模

目前huggingface的只有两种，但如果你看Comic_Generation.ipynb，其实有四种

models_dict = {
:,
: ,
: ,
: 
}

而且据官方的说明，模型这块是可插拔的，兼容所有SD1.5和SDXL-based的模型，所以没准还能用C站的模型替换 ?

2、model_type

这个其实类似 Stable Diffusion的文生图和图生图。

3、Textual Description for Character

撰写角色提示词的地方，也就是你对图片角色的描绘，比如

 man,black hair, shirt

Negative_prompt：反向提示词

4、Style template

这个也比较好理解，就是出图风格

5、Comic Description

这个就是故事情节的描述了，每一行对应一帧，也就是一张图片，这块可以借助各种AI工具生成

6、Tune the hyerparameters

这块的参数看起来是控制模型层数，没看太懂，有空研究下

7、Seed + steps

种子和步数，了解过Stable Diffusion的应该都比较清楚

8、height + width

如果是用huggingface 体验的话，建议可以调小一点，比如512，出图的成功率应该会高些

9、Typesetting style

这个控制的是图片的排版风格

最后如果对StoryDiffusion出图感兴趣的朋友，建议看下它的Huggingface，有比较多的注意事项，以及出图的提示词Example。

53AI，企业落地大模型首选服务商

产品：场景落地咨询+大模型应用平台+行业解决方案

承诺：免费场景POC验证，效果验证后签署服务协议。零风险落地应用大模型，已交付160+中大型企业

相关资讯

2025-05-08

AI 应用的上下文窗口管理

2025-05-08

六个常见MCP协议的认知误区你中了几个

2025-05-08

Agentic AI 的五种关键设计模式

2025-05-08

大模型蒸馏技术的演进历史与实现原理

2025-05-08

阿里云 AI 搜索开放平台新增：服务开发能力

2025-05-08

“Claude” 请座小孩那桌！Gemini 2.5 Pro震撼发布，编码无敌！

2025-05-08

浅入浅出——生成式 AI

2025-05-08

阿里云发了MCP，意味着什么？

了解更多

160+中大型企业正在使用53AI

立即咨询预约演示

把握AI发展的机遇，共同探索、共同进步

2025-01-22

如何打造基于GenAI的员工服务机器人

2025-01-22

热点资讯

本地部署大模型？看这篇就够了，Ollama 部署和实战

2024-08-13

16个具有“联网搜索”功能的AI：总有一个适合你！

2024-06-13

Cursor 一个真正让程序员产生危机感的 AI 编程工具

2024-08-21

OpenAI o1与GPT4o的对比分析

2024-09-23

大模型｜“上下文长度”和“上下文窗口”不再傻傻分不清楚！

2024-07-31

一文带你了解大模型——智能体（Agent）

2024-05-28

50+个AI大模型在不同领域的应用案例

2024-08-04

全面对比dify、coze、streamlit、chainlit

2024-04-26

【深度】AI搜索产品深度分析-搜索原理和商业模式分析

2024-07-09

一文读懂OpenAI新发布o1系列大模型

2024-09-17

大家都在问

阿里云发了MCP，意味着什么？

2025-05-08

AI Agent“虚火”过旺，或沦为“假Agent”？

2025-05-07

o3 深度解读：OpenAI 终于发力 tool use，agent 产品危险了吗？

2025-04-30

打起来了！MCP VS A2A，谁才是Agent的未来事实标准？

2025-04-29

Google 的 A2A 与 MCP 该如何选择？还是两种都用？

2025-04-29

精华好文！用LLM评估LLM，真的靠谱吗？技术上如何实现？

2025-04-29

大模型是否有必要本地化部署？

2025-04-28

给 AI 小白的说明书：什么是 Manus？AI Agent为什么重要？

2025-04-28

热门标签

内容创作大模型技术个人提效 langchain llamaindex 多模态技术 RAG技术智能客服知识图谱模型微调 RAGFlow coze Dify Fastgpt Bisheng Qanything AI+汽车 AI+金融 AI+工业 AI+培训 AI+SaaS 提示词框架提示词技巧 AI+电商 AI面试数字员工 ChatBI 知识管理开源大模型智能营销智能硬件智能化改造 AI+医疗 MaxKB