我要投稿

微软 Glyph-ByT5：让 AI 生成精准视觉文本成为现实

发布日期：2024-06-19 08:25:57 浏览次数： 3030

作者：子非AI

微信搜一搜，关注“子非AI”

微软 Glyph-ByT5：让 AI 生成精准视觉文本成为现实！

AI 生成图像技术近年来发展迅猛，DALL·E 3 和 Stable Diffusion 等模型已经能够生成以假乱真的图像。然而，一个长期困扰 AI 社区的难题是如何让 AI 精准地渲染视觉文本，尤其是在处理长文本和多行布局时。想象一下，如果 AI 可以自动生成包含精准文字的海报、卡片、宣传册，甚至可以将文字无缝地融入到现实世界的照片中，那将是多么令人兴奋的应用！

为了解决这个问题，微软研究院的学者们开发了一种名为 Glyph-ByT5 的定制文本编码器。Glyph-ByT5 的诞生，标志着 AI 生成精准视觉文本迈出了关键性的一步！

现有文本编码器的局限性

传统的文本编码器，如广泛使用的 CLIP，主要侧重于理解图像的概念，而对图像的细节，特别是文字的精准性关注不足。常用的 T5 文本编码器，虽然在语言理解方面表现出色，但缺乏与视觉信号的有效对齐。

这种局限性导致 AI 生成的图像中的文字常常出现错误，例如拼写错误、字体不一致、布局混乱等。这严重阻碍了 AI 生成图像技术在设计、广告、增强现实等领域的应用。

Glyph-ByT5 的解决方案

Glyph-ByT5 的核心思想是将字符感知的 ByT5 编码器与字形图像进行精准对齐，从而使 AI 能够像人类一样理解和渲染文字。

创建大规模数据集：让 AI 学习精准的字形

为了训练 Glyph-ByT5，研究人员创建了一个包含 100 万对合成数据 的字形文本数据集 (GlyphByT5Pretraining 数据集)。这个数据集涵盖了 512 种不同的字体 和 100 种不同的颜色，为 Glyph-ByT5 提供了丰富的学习素材。

图 1：Glyph-ByT5 生成的图像示例，包括包含段落的图像、设计图像以及包含场景文本的图像

盒子级对比损失：精准对齐文本和字形图像

研究人员还提出了一种名为 盒子级对比损失 的新型损失函数。与传统的图像级对比损失不同，盒子级对比损失将每个文本框及其对应的文本视为一个实例，从而实现更细粒度的对齐。

其数学公式如下：

Lbox = - (1 / (2 * sum(|Bi| for i in range(1, |N| + 1)))) * sum(sum(log(exp(t * xji * yji) / Zx) + log(exp(t * xji * yji) / Zy) for j in range(1, |Bi| + 1)) for i in range(1, |N| + 1))

其中：

• N：表示同一批次内的所有图像-文本对。
• Bi：表示第 i 个图像-文本对中的盒子-子文本对的数量。
• xji：表示第 i 个图像-文本对中第 j 个盒子的盒子嵌入。
• yji：表示第 i 个图像-文本对中第 j 个盒子的子文本嵌入。
• Zx, Zy：是归一化因子。
• t：是一个可学习的温度参数。

字形增强：提高训练效率和模型的字符感知能力

为了进一步提高训练效率和模型的字符感知能力，Glyph-ByT5 还集成了字形增强方案。该方案通过对字形图像进行字符替换、重复、删除和添加等操作，构建了信息更丰富的负样本，帮助模型更好地学习字形的特征。

(a) (b) (c) (d) (e) (f) (g) (h)

图 2：字形增强方案示例. (a) 原始字形. (b) 字符替换 (Happy → Hdppy). (c) 字符重复 (Happy → Happpppy). (d) 字符删除 (Happy → Hapy). (e) 字符添加 (Graduation → Gradumation). (f) 单词替换 (Graduation → Gauatikn). (g) 单词重复 (Kim → Kim Kim). (h) 单词删除 (Happy Graduation Kim → Graduation).

Glyph-SDXL: 精准设计图像生成

为了验证 Glyph-ByT5 的有效性，研究人员将其与强大的 SDXL 模型集成，创建了一个名为 Glyph-SDXL (Glyph-SDXL 模型) 的设计图像生成模型。

区域级多头交叉注意力：融合字形知识和全局信息

Glyph-SDXL 引入了一种名为 区域级多头交叉注意力 的机制。该机制将 Glyph-ByT5 编码的字形知识与 SDXL 的全局语义信息融合，使模型能够在保持背景图像质量的同时，精准地渲染文本内容。

(a) (b)

图 3：字形对齐预训练框架和区域级多头交叉注意力模块. (a) 字形对齐预训练 (b) 区域级多文本编码器融合

在设计文本生成任务中，Glyph-SDXL 的拼写精度明显优于 DALL·E 3 等现有技术。用户可以使用 Glyph-SDXL 生成包含精准文字的海报、卡片、宣传册等设计图像，而无需担心文字错误。

场景文本生成：从设计到现实

为了让 Glyph-SDXL 能够生成与现实场景融合的精准场景文本，研究人员引入了设计到场景的对齐技术，并构建了一个混合数据集用于模型微调，该数据集包含以下三类数据：

1. 场景文本和设计文本图像： 从 TextSeg 数据集 [26] 中精选了 4000 张高质量图像。
2. SDXL 生成的合成图像： 使用 SDXL 模型生成了 4000 张包含场景文本的合成图像。
3. 设计图像： 从图形设计网站收集了 4000 张设计图像。

通过在这个混合数据集上进行微调，Glyph-SDXL 被优化为一个精准的场景文本生成模型，名为 Glyph-SDXL-Scene。

在 MARIO-Eval、SimpleBench 和 CreativeBench 等场景文本渲染基准测试中，Glyph-SDXL-Scene 的性能显著优于 GlyphControl 和 TextDiffuser 等现有技术。这意味着 Glyph-SDXL-Scene 可以将文字无缝地融入到现实世界的照片中，例如路标、广告牌等，为增强现实等应用提供了新的可能性。

以下是一些 Glyph-SDXL-Scene 生成的场景文本示例：

图 4：Glyph-SDXL-Scene 生成的多语言场景文本图像示例

两大核心创新：精准渲染的秘密武器

Glyph-ByT5 的成功得益于两大核心创新：

1. 盒子级对比损失：突破传统，实现精准对齐

传统的图像级对比损失只考虑整张图像的语义信息，而忽略了文本框级别的细节。Glyph-ByT5 采用盒子级对比损失，将每个文本框及其对应的文本视为一个实例，从而实现更细粒度的对齐。这种对齐方式使 Glyph-ByT5 能够学习段落级布局规划，并提高文本渲染的精准度。

1. 区域级多头交叉注意力：融合信息，提升渲染效果

为了融合 Glyph-ByT5 编码的字形知识和 SDXL 的全局语义信息，Glyph-SDXL 引入了区域级多头交叉注意力机制。这种机制允许模型在保持背景图像质量的同时，精准地渲染文本内容。

总结与展望

Glyph-ByT5 的出现，标志着 AI 生成精准视觉文本迈出了关键性的一步。未来，研究人员计划探索更先进的视觉编码器，以提高模型对字体类型、颜色和布局的理解。他们还计划使用 GPT-4 等大型语言模型来自动生成排版布局，减少对人工标注的依赖。此外，研究人员还将研究字形混合技术，以创造新的、未见过的字体类型。