微信扫码
与创始人交个朋友
我要投稿
“GlyphDraw2: Automatic Generation of Complex Glyph Posters with Diffusion Models and Large Language Models”
海报具有醒目、直观、易于记忆和传播等特点,可以在宣传产品、推广活动、传递理念等方面起到重要的作用。目前文生图技术日趋成熟,但是在海标生成方面仍然有很大的提升空间。
为了解决这一问题,OPPO联合港中文发布基于LLM的端到端方案GlyphDraw2。GlyphDraw2采用三重交叉注意力机制的端到端文本渲染框架,旨在在详细的上下文背景中创建精确的海报文本。大量实验验证了该方法生成具有复杂和上下文丰富背景的海报图像的能力。
论文地址:https://arxiv.org/pdf/2407.02252
Github地址:https://github.com/OPPO-Mente-Lab/GlyphDraw2
摘要
本文介绍了海报生成的重要性以及现有技术的局限性,提出了一种基于三重交叉注意力机制的端到端文本渲染框架,能够生成高分辨率、具有可变宽高比的复杂背景下的精确文本海报。同时,作者还提供了一个超过1024像素分辨率的高分辨率数据集,并验证了该方法的有效性。
简介
文生图模型具有强大的生成能力,可以创建高度逼真和详细的图像。本研究集中在解决扩散模型的文本渲染限制上,目标是赋予扩散系统端到端海报生成能力。
基于扩散模型的海报生成为工业设计领域提供了新颖解决方案,具有重要的工业应用方向。挑战在于控制图像生成,一种方法是使用额外的适配器模块来编码新条件,并应用交叉注意机制将编码特征融入扩散生成过程。
最近的研究主要集中在布局控制和文本准确性上,但缺乏关于创建端到端文本渲染扩散模型的全面研究。确保高文本渲染准确性和丰富的视觉背景对生成的海报至关重要。
介绍了一个基于对齐学习的可控文本生成框架,用于海报生成,包括端到端的生成流程、用户提示的利用、文本布局精准性、背景视觉丰富性、高分辨率数据集、优秀的生成表现等四个方面的贡献。
相关工作
文生图模型。近年来,文本到图像扩散模型在图像生成方面表现出色。然而,基于文本的条件生成仍然无法满足所有用户的需求,因此越来越多的研究开始探索将新的条件整合到文本到图像扩散模型中。其中一种流行的方法是使用模型条件,将辅助模型用于编码新的条件因素,并将编码特征输入到扩散模型中。这种方法已经被广泛应用于可控生成的研究中。例如,IP-Adapter和ControlNet都是使用这种方法来实现可控生成。这些模型已经在空间控制、文本渲染和3D生成等领域得到了广泛研究和应用。
文本渲染。文本渲染在可控图像生成中的至关重要,目前的方法利用字形和位置信息学习字符绘制、利用形状信息增强文本到图像扩散模型、使用布局变换器和大型语言模型进行布局自动化等。此外,还有一些模型通过设计和训练字符感知和字形对齐的文本编码器来提供更强大的条件指导。本文的研究重点是自动生成布局并提高生成文本的准确性,同时保持背景的视觉吸引力。
基于LLM的文生图。最近的研究探索了使用LLM来生成新的细致条件,如布局规范、对象描述和样式表语言等,以指导图像生成。其中,LayoutGPT和LayoutPrompter利用LLM生成每个对象的样式表语言,而TextDiffuser-2、LLM Blueprint和Reason Out your Layout则利用LLM生成每个对象的边界框作为新的条件。生成布局边界框可以通过两种主要方法实现:高级专有模型的提示工程和微调开源LLM。与提示工程相比,微调LLM更高效,有助于开发端到端海报生成模型。因此,我们在海报布局信息上微调LLM,生成边界框来指导文本元素在海报中的位置。
数据集构建
方法
三重交叉注意力
为了确保生成的字形准确性,引入了ControlNet模块,并在原始交叉注意力层之后引入了新的自适应交叉注意力层。此外,为了解决生成段落或更大文本块的问题,还引入了第二个交叉注意力层。最终的TCA输出是三个交叉注意力层的总和。
辅助对齐损失
海报生成中需要关注字形生成的准确性、背景的和谐性以及图像背景的丰富性。我们的方法引入了额外的条件注入,包括ControlNet特征添加和TCA策略,以增加解码器组件的数量,以确保生成图像的可控性。然而,可控性往往会牺牲可编辑性或文本一致性。因此,我们引入了AAL来保持语义一致性,通过在重复的解码器块中应用AAL来最小化对整体布局和图像质量的影响。最终损失函数包括重要的超参数λ。
使用微调LLM进行推理
为了确保端到端海报生成,需要解决的最后一个紧急问题是消除手动干预,即预定义图像布局的过程。我们完全依赖用户的标题描述,并引入LLM来解决这个问题。此外,为了方便调用,我们已构建了自己的指令数据,并对开源语言模型进行了微调。
实验
评估
评估集分为两部分,用于评估模型性能。第一部分是AnyText-Benchmark,包含1000张英文和中文图像。我们发现其中用于测试中文生成能力的1000张图像与英文数据混合,因此我们移除了这部分数据,留下915张作为评估的基准。
我们从两个方面评估文本渲染质量:(1)位置词准确率(PWAcc)计算特定位置生成的单词的准确性。(2)标准化编辑距离(NED)是两个字符串之间相似度的度量。需要注意的是,AnyText-Benchmark中的大部分英文评估集只包含一个英文单词,导致评估英文句子时缺乏精度,因此需要构建更复杂的评估集。
评估集包括复杂基准和海报基准两个子集,共有四个评估子集,包括中英文双语评估。复杂基准包括100个提示,其中中文提示随机组合排列字符,英文提示包含连续重复的较长单词。海报评估集包括120个描述海报生成的提示,旨在评估海报生成的布局准确性、稳健性和整体美学质量。评估使用三个指标:准确率、ClipScore和HPSv2。评估了不同方法,包括AnyText、ControlNet和StableDiffusion3(SD3)。
结果
我们的模型在渲染中英文文本方面的准确性明显优于AnyText,但在ClipScore指标上略低于GlyphDraw2。Acc指标基于PWAcc规则计算。
针对中文和英文分别设计了不同的评估集,包括复杂汉字和重复字母的英文单词等。评估指标包括准确率、ClipScore和HPSv2等。实验结果表明,该模型在文本生成准确率方面表现优异,尤其在海报生成方面表现最佳。同时,使用LLM预测文本框位置可以实现无需用户指定文本位置的端到端海报生成。
模型有四种任务模式,其中前两种需要预测四个位置坐标,最后两种则只需要预测两个坐标。实验结果表明,模型参数越大,微调效果越好,输出归一化可以提高准确率。最终选择了Baichuan2-13B模型,第三种任务模式。在自定义评估集上微调后,模型在标题、内容连续性和边界框大小等方面表现出优势。
消融分析
通过消融实验,发现TCA模块、AAL策略、FTE模块和ControlNet的条件输入都对生成海报的效果有影响。虽然该方法可以生成自由分辨率的海报,但仍存在一些问题,如文本边界框的预测精度较低、背景生成和文本渲染的平衡仍然比较困难等。作者表示未来将探索一些解决方案来解决这些问题。
总结
53AI,企业落地应用大模型首选服务商
产品:大模型应用平台+智能体定制开发+落地咨询服务
承诺:先做场景POC验证,看到效果再签署服务协议。零风险落地应用大模型,已交付160+中大型企业
2025-01-12
吴恩达:当下最重要的技术是Agentic AI;视觉AI正成为下一个重要趋势
2025-01-12
最近总被提及的 Agentic AI 到底是什么?
2025-01-12
Agentic AI 系统设计:第一部分 Agent 架构
2025-01-12
OpenAI 宣布 OpenAI o3:人工智能推理领域的显着进步,在 Arc AGI 基准测试中得分为 87.5%
2025-01-11
人工智能:大模型从技术到业务应用
2025-01-11
深度长文|Agentic AI 时代:NVIDIA 的技术革命与雄心
2025-01-11
AI是否会终结传统搜索引擎?
2025-01-11
亚马逊云科技:LLMOps驱动生成式 AI 应用的运营化
2024-08-13
2024-05-28
2024-04-26
2024-08-21
2024-06-13
2024-08-04
2024-07-09
2024-09-23
2024-07-18
2024-04-11