微信扫码
与创始人交个朋友
我要投稿
文章地址:https://arxiv.org/abs/2406.01388
项目地址:https://github.com/donahowe/AutoStudio
turn 1: a girl, a boy and a man walking on the road to school
turn 2: a man waving goodbye to the girl
turn 3: girl, angry and arguing on steet
turn 4: a girl and a boy playing with a dog
turn 5: sitting and sunbathing near the sea
基座 disney-pixar-cartoon-b
基座 DreamShaper
turn 1 : boy, white hair,blue eyes, singing to the Girl.girl, red hair, blue eyes, singing to the boy
turn 2:
boy, white hair, blue eyes, sitting on sofa and laughing. girl, red hair, blue eyes, sitting on sofa and angry
turn 3:
the boy walking on the streed,boy, white hair, blue eyes, thinking and walking
基座 disney-pixar-cartoon-b
基座 DreamShaper
turn 1: white hair girl, playing.brown cat, playing.black cat, playing.
turn 2: a black cat, a yellow dog, a blue rabbit
turn 3: a lego man,a lego woman,a lego car, a lego house
基座 disney-pixar-cartoon-b
AutoStudio的核心包含利用四个agent(主题管理器、布局生成器、监督者和绘图器)和一个主题数据库完成多回合多主题交互图像生成:
● 主题管理器对用户对话进行解读,理解用户的输入并保持对话的主题一致性;
● 布局生成器提供布局,根据主题管理器提供的信息来决定图像中每个元素的具体位置;
● 监督者提供优化布局的建议;
● 绘图器根据提供精细的布局和主题数据库生成图像,这里的核心是引入了平行UNet(Parallel-UNet)和基于稳定扩散(Stable Diffusion)的方法。平行UNet利用两个并行的交叉注意力模块分别增强文本和图像嵌入的潜在主题特征,而稳定扩散则能生成高质量的视觉内容。结合这两种技术,AutoStudio不仅能保持主题的连贯性,还能在视觉上给用户带来震撼的效果。
AutoStudio生成漫画的PipeLine具体如下:
1. 用户输入与主题管理(Subject Manager):
● 用户通过自然语言提供指令或故事线索。
● 主题管理器解析这些输入,识别对话中提及的不同主题,并为每个主题及其组件分配独特的标识符(ID)和描述(captions)。
2. 布局生成(Layout Generator):
● 根据主题管理器提供的描述,布局生成器创建一个初步的布局草图,包括每个主题和组件的边界框(bounding boxes),确定它们在图像中的大致位置和尺寸。
3. 布局优化(Supervisor):
● 监督者(Supervisor)对布局生成器提出的草图进行评估,并提供改进建议,以修正不合理的空间关系,优化主题间和主题内部的布局。
4. 图像生成准备:
● 经过监督者优化的布局被送回布局生成器以生成最终的布局(Layout)。
● 主题数据库(Subject Database)根据布局和优化建议检索和更新主题信息。
5. 主题初始化生成方法:
● 利用稳定扩散(Stable Diffusion, SD)模型和P-UNet,根据优化后的布局和主题数据库中的信息,生成每个主题的潜在特征图(latent feature maps)。
● 对于小主题,通过调整边界框的大小来确保特征的保留,并使用前向扩散过程将单个主题图像合并为一个统一的指导图像(guidance image)。
6. 图像生成(Drawer):
● Drawer组件接收最终的布局和主题信息,通过P-UNet进行图像生成。P-UNet利用并行的文本和图像交叉注意力模块来增强主题特征,生成与布局一致且主题特征明显的高质量图像
在生成过程中初始化潜在特征图,以更好地保留小主题的特征,避免主题丢失或错误融合。这个过程包括对主体粗粒度特征的单独生成,使用提取器提取特征并通过正向扩散映射到潜空间并在全局生成的初始几步进行局部替换
具体来说,给定主题数据库D,该初始化方法生成潜在特征映射,该映射根据布局在空间上合并来自D的所有主题特征,如图所示。为了更好地保留小主体和组件的特征,首先调整每个主体的边界框的大小,以确保其长边达到1024像素。然后,利用具有P-UNet的SD模型(表示为- SD)为每个目标生成具有相应调整大小和居中的边界框的单幅图像,以便进行扩散去噪以获得其相应的潜在特征。
SD模型中的原始UNet利用交叉注意模块来挖掘文本特征,这些特征不足以表示多个主体的空间关系和特征。P-Unet是无需训练的布局调制注意力模块,P-Unet将UNet层的原始交叉关注模块分解为两个并行的文本和图像交叉关注模块(表示为PTCA和PICA)来细化Z。这两个模块具有相同的架构,其关键思想是计算Z与每主题文本/图像嵌入之间的特征相似度
备注:任意UNet层在去噪过程中的输入潜在特征表示为Z
优势
● AutoStudio能够在多次交互后,图像中的主题元素(如人物、场景等)仍然较好地保持连贯。
● 生成的连环漫画速度较快,一致性优于StoryDifusion
缺点
● 概率性发生人物一致性问题
● 生成的人物效果概率性发生瑕疵,可能会出现多头、多手等身体缺陷问题(可能跟基座模型有关)
● 生成图像并不是每一次都能完全正确遵循Promt(可能跟基座模型有关)
客观的说,效果较好,优于前人方法,但是仍然存在不少瑕疵。可以借鉴去制作连环漫画,但需要后期过滤处理问题图像(或者重复同样的主题和Promt重复生成多张,挑选好的一张),暂不适合做全自动的连环漫画AI生成。
点击下方卡片,关注“AICV与前沿”
53AI,企业落地应用大模型首选服务商
产品:大模型应用平台+智能体定制开发+落地咨询服务
承诺:先做场景POC验证,看到效果再签署服务协议。零风险落地应用大模型,已交付160+中大型企业
2024-05-30
2024-09-12
2024-06-17
2024-08-06
2024-08-30
2024-04-21
2024-06-26
2024-07-07
2024-06-14
2024-07-21
2024-09-26
2024-09-26
2024-09-01
2024-07-15
2024-07-14
2024-07-10
2024-07-02
2024-06-29