我要投稿

AutoStudio连环漫画生成方案体验、原理解析

发布日期：2024-08-11 07:21:04 浏览次数： 2049

作者：AICV与前沿

微信搜一搜，关注“AICV与前沿”

文章地址：https://arxiv.org/abs/2406.01388

项目地址：https://github.com/donahowe/AutoStudio

01 本地效果

turn 1: a girl, a boy and a man walking on the road to school

turn 2: a man waving goodbye to the girl

turn 3: girl, angry and arguing on steet

turn 4: a girl and a boy playing with a dog

turn 5: sitting and sunbathing near the sea

基座 disney-pixar-cartoon-b

基座 DreamShaper

turn 1 : boy, white hair,blue eyes, singing to the Girl.girl, red hair, blue eyes, singing to the boy

turn 2：

boy, white hair, blue eyes, sitting on sofa and laughing. girl, red hair, blue eyes, sitting on sofa and angry

turn 3:

the boy walking on the streed,boy, white hair, blue eyes, thinking and walking

基座 disney-pixar-cartoon-b

基座 DreamShaper

turn 1: white hair girl, playing.brown cat, playing.black cat, playing.

turn 2: a black cat, a yellow dog, a blue rabbit

turn 3: a lego man,a lego woman,a lego car, a lego house

基座 disney-pixar-cartoon-b

02 方案

2.1 架构

AutoStudio的核心包含利用四个agent（主题管理器、布局生成器、监督者和绘图器）和一个主题数据库完成多回合多主题交互图像生成：

● 主题管理器对用户对话进行解读，理解用户的输入并保持对话的主题一致性；

● 布局生成器提供布局，根据主题管理器提供的信息来决定图像中每个元素的具体位置；

● 监督者提供优化布局的建议；

● 绘图器根据提供精细的布局和主题数据库生成图像，这里的核心是引入了平行UNet（Parallel-UNet）和基于稳定扩散（Stable Diffusion）的方法。平行UNet利用两个并行的交叉注意力模块分别增强文本和图像嵌入的潜在主题特征，而稳定扩散则能生成高质量的视觉内容。结合这两种技术，AutoStudio不仅能保持主题的连贯性，还能在视觉上给用户带来震撼的效果。

AutoStudio生成漫画的PipeLine具体如下：

1. 用户输入与主题管理（Subject Manager）：

● 用户通过自然语言提供指令或故事线索。

● 主题管理器解析这些输入，识别对话中提及的不同主题，并为每个主题及其组件分配独特的标识符（ID）和描述（captions）。

2. 布局生成（Layout Generator）：

● 根据主题管理器提供的描述，布局生成器创建一个初步的布局草图，包括每个主题和组件的边界框（bounding boxes），确定它们在图像中的大致位置和尺寸。

3. 布局优化（Supervisor）：

● 监督者（Supervisor）对布局生成器提出的草图进行评估，并提供改进建议，以修正不合理的空间关系，优化主题间和主题内部的布局。

4. 图像生成准备：

● 经过监督者优化的布局被送回布局生成器以生成最终的布局（Layout）。

● 主题数据库（Subject Database）根据布局和优化建议检索和更新主题信息。

5. 主题初始化生成方法：

● 利用稳定扩散（Stable Diffusion, SD）模型和P-UNet，根据优化后的布局和主题数据库中的信息，生成每个主题的潜在特征图（latent feature maps）。

● 对于小主题，通过调整边界框的大小来确保特征的保留，并使用前向扩散过程将单个主题图像合并为一个统一的指导图像（guidance image）。

6. 图像生成（Drawer）：

● Drawer组件接收最终的布局和主题信息，通过P-UNet进行图像生成。P-UNet利用并行的文本和图像交叉注意力模块来增强主题特征，生成与布局一致且主题特征明显的高质量图像

2.2 主题初始化生成方法

在生成过程中初始化潜在特征图，以更好地保留小主题的特征，避免主题丢失或错误融合。这个过程包括对主体粗粒度特征的单独生成，使用提取器提取特征并通过正向扩散映射到潜空间并在全局生成的初始几步进行局部替换

具体来说，给定主题数据库D，该初始化方法生成潜在特征映射，该映射根据布局在空间上合并来自D的所有主题特征，如图所示。为了更好地保留小主体和组件的特征，首先调整每个主体的边界框的大小，以确保其长边达到1024像素。然后，利用具有P-UNet的SD模型(表示为- SD)为每个目标生成具有相应调整大小和居中的边界框的单幅图像，以便进行扩散去噪以获得其相应的潜在特征。

2.3 绘图器核心：Parallel-UNet

SD模型中的原始UNet利用交叉注意模块来挖掘文本特征，这些特征不足以表示多个主体的空间关系和特征。P-Unet是无需训练的布局调制注意力模块，P-Unet将UNet层的原始交叉关注模块分解为两个并行的文本和图像交叉关注模块(表示为PTCA和PICA)来细化Z。这两个模块具有相同的架构，其关键思想是计算Z与每主题文本/图像嵌入之间的特征相似度

备注：任意UNet层在去噪过程中的输入潜在特征表示为Z