微信扫码
与创始人交个朋友
我要投稿
AI 生成图像技术近年来发展迅猛,DALL·E 3 和 Stable Diffusion 等模型已经能够生成以假乱真的图像。然而,一个长期困扰 AI 社区的难题是如何让 AI 精准地渲染视觉文本,尤其是在处理长文本和多行布局时。想象一下,如果 AI 可以自动生成包含精准文字的海报、卡片、宣传册,甚至可以将文字无缝地融入到现实世界的照片中,那将是多么令人兴奋的应用!
为了解决这个问题,微软研究院的学者们开发了一种名为 Glyph-ByT5 的定制文本编码器。Glyph-ByT5 的诞生,标志着 AI 生成精准视觉文本迈出了关键性的一步!
传统的文本编码器,如广泛使用的 CLIP,主要侧重于理解图像的概念,而对图像的细节,特别是文字的精准性关注不足。常用的 T5 文本编码器,虽然在语言理解方面表现出色,但缺乏与视觉信号的有效对齐。
这种局限性导致 AI 生成的图像中的文字常常出现错误,例如拼写错误、字体不一致、布局混乱等。这严重阻碍了 AI 生成图像技术在设计、广告、增强现实等领域的应用。
Glyph-ByT5 的核心思想是将字符感知的 ByT5 编码器与字形图像进行精准对齐,从而使 AI 能够像人类一样理解和渲染文字。
为了训练 Glyph-ByT5,研究人员创建了一个包含 100 万对合成数据 的字形文本数据集 (GlyphByT5Pretraining 数据集)。这个数据集涵盖了 512 种不同的字体 和 100 种不同的颜色,为 Glyph-ByT5 提供了丰富的学习素材。
研究人员还提出了一种名为 盒子级对比损失 的新型损失函数。与传统的图像级对比损失不同,盒子级对比损失将每个文本框及其对应的文本视为一个实例,从而实现更细粒度的对齐。
其数学公式如下:
Lbox = - (1 / (2 * sum(|Bi| for i in range(1, |N| + 1)))) * sum(sum(log(exp(t * xji * yji) / Zx) + log(exp(t * xji * yji) / Zy) for j in range(1, |Bi| + 1)) for i in range(1, |N| + 1))
其中:
• N:表示同一批次内的所有图像-文本对。
• Bi:表示第 i 个图像-文本对中的盒子-子文本对的数量。
• xji:表示第 i 个图像-文本对中第 j 个盒子的盒子嵌入。
• yji:表示第 i 个图像-文本对中第 j 个盒子的子文本嵌入。
• Zx, Zy:是归一化因子。
• t:是一个可学习的温度参数。
为了进一步提高训练效率和模型的字符感知能力,Glyph-ByT5 还集成了字形增强方案。该方案通过对字形图像进行字符替换、重复、删除和添加等操作,构建了信息更丰富的负样本,帮助模型更好地学习字形的特征。
(a) (b) (c) (d) (e) (f) (g) (h)
为了验证 Glyph-ByT5 的有效性,研究人员将其与强大的 SDXL 模型集成,创建了一个名为 Glyph-SDXL (Glyph-SDXL 模型) 的设计图像生成模型。
Glyph-SDXL 引入了一种名为 区域级多头交叉注意力 的机制。该机制将 Glyph-ByT5 编码的字形知识与 SDXL 的全局语义信息融合,使模型能够在保持背景图像质量的同时,精准地渲染文本内容。
(a) (b)
在设计文本生成任务中,Glyph-SDXL 的拼写精度明显优于 DALL·E 3 等现有技术。用户可以使用 Glyph-SDXL 生成包含精准文字的海报、卡片、宣传册等设计图像,而无需担心文字错误。
为了让 Glyph-SDXL 能够生成与现实场景融合的精准场景文本,研究人员引入了设计到场景的对齐技术,并构建了一个混合数据集用于模型微调,该数据集包含以下三类数据:
1. 场景文本和设计文本图像: 从 TextSeg 数据集 [26] 中精选了 4000 张高质量图像。
2. SDXL 生成的合成图像: 使用 SDXL 模型生成了 4000 张包含场景文本的合成图像。
3. 设计图像: 从图形设计网站收集了 4000 张设计图像。
通过在这个混合数据集上进行微调,Glyph-SDXL 被优化为一个精准的场景文本生成模型,名为 Glyph-SDXL-Scene。
在 MARIO-Eval、SimpleBench 和 CreativeBench 等场景文本渲染基准测试中,Glyph-SDXL-Scene 的性能显著优于 GlyphControl 和 TextDiffuser 等现有技术。这意味着 Glyph-SDXL-Scene 可以将文字无缝地融入到现实世界的照片中,例如路标、广告牌等,为增强现实等应用提供了新的可能性。
以下是一些 Glyph-SDXL-Scene 生成的场景文本示例:
Glyph-ByT5 的成功得益于两大核心创新:
1. 盒子级对比损失:突破传统,实现精准对齐
传统的图像级对比损失只考虑整张图像的语义信息,而忽略了文本框级别的细节。Glyph-ByT5 采用盒子级对比损失,将每个文本框及其对应的文本视为一个实例,从而实现更细粒度的对齐。这种对齐方式使 Glyph-ByT5 能够学习段落级布局规划,并提高文本渲染的精准度。
1. 区域级多头交叉注意力:融合信息,提升渲染效果
为了融合 Glyph-ByT5 编码的字形知识和 SDXL 的全局语义信息,Glyph-SDXL 引入了区域级多头交叉注意力机制。这种机制允许模型在保持背景图像质量的同时,精准地渲染文本内容。
Glyph-ByT5 的出现,标志着 AI 生成精准视觉文本迈出了关键性的一步。未来,研究人员计划探索更先进的视觉编码器,以提高模型对字体类型、颜色和布局的理解。他们还计划使用 GPT-4 等大型语言模型来自动生成排版布局,减少对人工标注的依赖。此外,研究人员还将研究字形混合技术,以创造新的、未见过的字体类型。
53AI,企业落地应用大模型首选服务商
产品:大模型应用平台+智能体定制开发+落地咨询服务
承诺:先做场景POC验证,看到效果再签署服务协议。零风险落地应用大模型,已交付160+中大型企业
2024-05-28
2024-04-26
2024-08-21
2024-04-11
2024-08-13
2024-07-09
2024-07-18
2024-10-25
2024-07-01
2024-06-17