AI知识库

53AI知识库

学习大模型的前沿技术与行业应用场景


微软 Glyph-ByT5:让 AI 生成精准视觉文本成为现实
发布日期:2024-06-19 08:25:57 浏览次数: 1967 来源:子非AI


微软 Glyph-ByT5:让 AI 生成精准视觉文本成为现实!

AI 生成图像技术近年来发展迅猛,DALL·E 3 和 Stable Diffusion 等模型已经能够生成以假乱真的图像。然而,一个长期困扰 AI 社区的难题是如何让 AI 精准地渲染视觉文本,尤其是在处理长文本和多行布局时。想象一下,如果 AI 可以自动生成包含精准文字的海报、卡片、宣传册,甚至可以将文字无缝地融入到现实世界的照片中,那将是多么令人兴奋的应用!

为了解决这个问题,微软研究院的学者们开发了一种名为 Glyph-ByT5 的定制文本编码器。Glyph-ByT5 的诞生,标志着 AI 生成精准视觉文本迈出了关键性的一步!

现有文本编码器的局限性

传统的文本编码器,如广泛使用的 CLIP,主要侧重于理解图像的概念,而对图像的细节,特别是文字的精准性关注不足。常用的 T5 文本编码器,虽然在语言理解方面表现出色,但缺乏与视觉信号的有效对齐。

这种局限性导致 AI 生成的图像中的文字常常出现错误,例如拼写错误、字体不一致、布局混乱等。这严重阻碍了 AI 生成图像技术在设计、广告、增强现实等领域的应用。

Glyph-ByT5 的解决方案

Glyph-ByT5 的核心思想是将字符感知的 ByT5 编码器与字形图像进行精准对齐,从而使 AI 能够像人类一样理解和渲染文字。

创建大规模数据集:让 AI 学习精准的字形

为了训练 Glyph-ByT5,研究人员创建了一个包含 100 万对合成数据 的字形文本数据集 (GlyphByT5Pretraining 数据集)。这个数据集涵盖了 512 种不同的字体 和 100 种不同的颜色,为 Glyph-ByT5 提供了丰富的学习素材。

图 1:Glyph-ByT5 生成的图像示例,包括包含段落的图像、设计图像以及包含场景文本的图像

盒子级对比损失:精准对齐文本和字形图像

研究人员还提出了一种名为 盒子级对比损失 的新型损失函数。与传统的图像级对比损失不同,盒子级对比损失将每个文本框及其对应的文本视为一个实例,从而实现更细粒度的对齐。

其数学公式如下:

Lbox = - (1 / (2 * sum(|Bi| for i in range(1, |N| + 1)))) * sum(sum(log(exp(t * xji * yji) / Zx) + log(exp(t * xji * yji) / Zy) for j in range(1, |Bi| + 1)) for i in range(1, |N| + 1))

其中:

  • • N:表示同一批次内的所有图像-文本对。

  • • Bi:表示第 i 个图像-文本对中的盒子-子文本对的数量。

  • • xji:表示第 i 个图像-文本对中第 j 个盒子的盒子嵌入。

  • • yji:表示第 i 个图像-文本对中第 j 个盒子的子文本嵌入。

  • • Zx, Zy:是归一化因子。

  • • t:是一个可学习的温度参数。

字形增强:提高训练效率和模型的字符感知能力

为了进一步提高训练效率和模型的字符感知能力,Glyph-ByT5 还集成了字形增强方案。该方案通过对字形图像进行字符替换、重复、删除和添加等操作,构建了信息更丰富的负样本,帮助模型更好地学习字形的特征。

 (a)  (b)  (c)  (d)  (e)  (f)  (g)  (h)

图 2:字形增强方案示例. (a) 原始字形. (b) 字符替换 (Happy → Hdppy). (c) 字符重复 (Happy → Happpppy). (d) 字符删除 (Happy → Hapy). (e) 字符添加 (Graduation → Gradumation). (f) 单词替换 (Graduation → Gauatikn). (g) 单词重复 (Kim → Kim Kim). (h) 单词删除 (Happy Graduation Kim → Graduation).

Glyph-SDXL: 精准设计图像生成

为了验证 Glyph-ByT5 的有效性,研究人员将其与强大的 SDXL 模型集成,创建了一个名为 Glyph-SDXL (Glyph-SDXL 模型) 的设计图像生成模型。

区域级多头交叉注意力:融合字形知识和全局信息

Glyph-SDXL 引入了一种名为 区域级多头交叉注意力 的机制。该机制将 Glyph-ByT5 编码的字形知识与 SDXL 的全局语义信息融合,使模型能够在保持背景图像质量的同时,精准地渲染文本内容。

 (a)  (b)

图 3:字形对齐预训练框架和区域级多头交叉注意力模块. (a) 字形对齐预训练 (b) 区域级多文本编码器融合

在设计文本生成任务中,Glyph-SDXL 的拼写精度明显优于 DALL·E 3 等现有技术。用户可以使用 Glyph-SDXL 生成包含精准文字的海报、卡片、宣传册等设计图像,而无需担心文字错误。

场景文本生成:从设计到现实

为了让 Glyph-SDXL 能够生成与现实场景融合的精准场景文本,研究人员引入了设计到场景的对齐技术,并构建了一个混合数据集用于模型微调,该数据集包含以下三类数据:

  1. 1. 场景文本和设计文本图像: 从 TextSeg 数据集 [26] 中精选了 4000 张高质量图像。

  2. 2. SDXL 生成的合成图像: 使用 SDXL 模型生成了 4000 张包含场景文本的合成图像。

  3. 3. 设计图像: 从图形设计网站收集了 4000 张设计图像。

通过在这个混合数据集上进行微调,Glyph-SDXL 被优化为一个精准的场景文本生成模型,名为 Glyph-SDXL-Scene

在 MARIO-Eval、SimpleBench 和 CreativeBench 等场景文本渲染基准测试中,Glyph-SDXL-Scene 的性能显著优于 GlyphControl 和 TextDiffuser 等现有技术。这意味着 Glyph-SDXL-Scene 可以将文字无缝地融入到现实世界的照片中,例如路标、广告牌等,为增强现实等应用提供了新的可能性。

以下是一些 Glyph-SDXL-Scene 生成的场景文本示例:

图 4:Glyph-SDXL-Scene 生成的多语言场景文本图像示例

两大核心创新:精准渲染的秘密武器

Glyph-ByT5 的成功得益于两大核心创新:

  1. 1. 盒子级对比损失:突破传统,实现精准对齐

传统的图像级对比损失只考虑整张图像的语义信息,而忽略了文本框级别的细节。Glyph-ByT5 采用盒子级对比损失,将每个文本框及其对应的文本视为一个实例,从而实现更细粒度的对齐。这种对齐方式使 Glyph-ByT5 能够学习段落级布局规划,并提高文本渲染的精准度。

  1. 1. 区域级多头交叉注意力:融合信息,提升渲染效果

为了融合 Glyph-ByT5 编码的字形知识和 SDXL 的全局语义信息,Glyph-SDXL 引入了区域级多头交叉注意力机制。这种机制允许模型在保持背景图像质量的同时,精准地渲染文本内容。

总结与展望

Glyph-ByT5 的出现,标志着 AI 生成精准视觉文本迈出了关键性的一步。未来,研究人员计划探索更先进的视觉编码器,以提高模型对字体类型、颜色和布局的理解。他们还计划使用 GPT-4 等大型语言模型来自动生成排版布局,减少对人工标注的依赖。此外,研究人员还将研究字形混合技术,以创造新的、未见过的字体类型。



53AI,企业落地应用大模型首选服务商

产品:大模型应用平台+智能体定制开发+落地咨询服务

承诺:先做场景POC验证,看到效果再签署服务协议。零风险落地应用大模型,已交付160+中大型企业

联系我们

售前咨询
186 6662 7370
预约演示
185 8882 0121

微信扫码

与创始人交个朋友

回到顶部

 
扫码咨询