我要投稿

ELLA = 文生图 + 大语言模型

发布日期：2024-04-18 17:07:33 浏览次数： 2160 作者：奇点智源

利用扩散模型，文本生成图像的领域取得了突破性进展。然而，目前主流的模型通常使用 CLIP 作为文本编码器，这限制了它们处理复杂图像描述的能力，尤其是在包含多个物体、细致特征、复杂关系和整体文本对齐等方面。为了解决这些挑战，这篇论文提出了一种新颖的方法，即高效大语言模型适配器（ELLA）。通过将功能强大的大语言模型（LLM）集成到文本到图像的扩散模型中，ELLA无需重新训练U-Net或LLM，就能显著提升模型性能。其核心创新在于引入了一个时序感知语义连接器（TSC），能够从已训练的LLM中动态提取与时序相关的条件。通过在各个去噪阶段调整语义特征，ELLA 有助于解读冗长而复杂的描述语句。

背景介绍

近年来，扩散模型已成为文本到图像生成的主要驱动力，可以合成视觉上吸引人且符合文本描述的图像。然而，包括基于 CLIP 的变体在内的一些常用模型在处理密集型描述时面临挑战，限制了它们驾驭复杂关系和多个对象详细描述的能力。ELLA 提供了一种轻量级替代方案，通过平滑地集成强大的 LLM 来增强现有模型。这样做最终会提高模型遵循描述指令的能力，并且能够理解冗长、密集的文本，而无需训练 LLM 或 U-Net。

ELLA 架构

ELLA 的体系结构集成了预先训练好的 LLM（例如 T5、TinyLlama 或 LLaMA-2）和一个 TSC，以在整个去噪过程中引导语义对齐。TSC 根据重采样器结构在不同的去噪阶段动态调整语义特征。向 TSC 添加时序信息有助于其动态文本特征提取能力，并能够在不同的语义级别更好地调节固定的 U-Net。

为了评估文本到图像模型在密集型语义描述上的性能，引入了密集型描述图基准 (DPG-Bench)，其中包含 1,065 个冗长、密集的描述。通过评估模型处理复杂和信息丰富指令时的语义对齐能力，该数据集提供了比现有基准更全面的测试参考。此外，该论文还展示了 ELLA 与现有社区模型和下游工具的兼容性，为进一步改进提供了途径。

该论文深入探讨了合成式文本到图像扩散模型及相关领域的研究，并指出了它们在处理复杂指令时的局限性。它通过强调基于 CLIP 的模型的缺点以及将强大的 LLM（例如 T5 和 LLaMA-2）集成到现有框架中的重要性，为 ELLA 的创新贡献奠定了基础。

实验结果

ELLA采用LLM作为文本编码器，并在其设计中引入TSC进行动态语义对齐。研究中进行了深入的测试，将 ELLA 与 DPG-Bench 上的密集型描述和 T2I-CompBench 子集上的简短合成问题进行比较。结果表明 ELLA表现优异，尤其是在复杂描述、包含多个物体的构图以及各种属性和关系的描述处理方面。

该论文通过消融研究考察了不同的LLM选择和替代架构设计对ELLA 性能的影响。对简单和复杂语义描述的处理结果证明了所提出的方法的鲁棒性，体现了 TSC 模块的设计和 LLM 的选择所带来的显著优势。