我要投稿

【文档智能】LACE：帮你自动生成文档布局的方法浅尝

发布日期：2024-07-09 08:43:31 浏览次数： 3189

作者：大模型自然语言处理

微信搜一搜，关注“大模型自然语言处理”

前言

往期很多文章都介绍了【文档智能】上布局识别（版式分析）的技术思路，版式分析是通过对文档版式进行布局识别，识别文档中的元素类型的过程。这次来看看一个有趣的思路，通过已有的元素类型，来生成可控的文档的布局。

介绍之前，先概述下一些基础的概念。

可控布局生成：在图形设计（例如文档和网页设计）中创建元素的合理视觉排列的过程，同时考虑到代表设计意图的约束条件。
FID评价指标：FID（Fréchet Inception Distance）是一种用于评估生成模型和真实数据分布之间差异的指标。FID是通过计算两个分布之间的Fréchet距离来衡量生成模型和真实数据分布之间的差异。Fréchet距离是一种度量两个分布之间距离的方法，它考虑到了两个分布的均值和协方差矩阵，可以更好地描述两个分布之间的差异。FID作为一种评估指标，被广泛用于生成模型的训练和评估中。它可以帮助我们更准确地评估生成模型的质量，并选择更好的生成模型。同时，FID也是一种客观的评估指标，可以避免人为主观因素对评估结果的影响。
布局生成扩散模型架构
标准 Transformer 模型通常不直接处理时间序列数据，但布局生成扩散模型需要考虑时间因素，因为扩散过程是时间依赖的。因此，模型通过时间嵌入将时间信息编码到模型中。

背景

现有的扩散模型在处理布局属性时，要么将它们视为离散变量，要么视为连续变量，并且在数据损坏过程中使用基于类别和高斯噪声的机制。这些不同的损坏机制在生成过程中产生不同的模式。具体来说，离散扩散从空白画布开始，逐步添加元素，而连续扩散则从随机布局开始，并随着时间的推移将其细化为有组织的布局，这在建模方面更加灵活。

然而，尽管扩散模型在 FID 分数上取得了最先进的成绩，但它们在对齐和最大交并比（MaxIoU）分数上的表现通常不如早期的基于 Transformer 的模型，尤其是在无条件生成方面。这些指标可以用于在连续扩散模型中的约束优化，以提高布局的美学质量。但是，由于量化几何属性的不可微性，离散模型无法利用这一优化潜力。相比之下，连续扩散模型在任务统一方面面临挑战，因为高斯分布的样本空间和数据分布（画布范围和概率单纯形）是不同的。

为了解决这些问题，提出一个统一的模型-LACE，旨在连续空间中生成各种任务的几何和分类属性。LACE 模型采用连续扩散模型作为基础，并引入了可微的美学约束函数来增强模型性能。此外，还设计了全局对齐损失和成对重叠损失，这些在训练和后处理阶段作为约束函数。

一、方法

1.1 连续扩散模型

连续扩散模型是一种生成模型，它通过一个正向和逆向的马尔可夫过程来描述数据的生成过程。

训练目标（损失函数）：

1.2 连续布局生成

连续布局生成是指在布局元素的生成过程中，使用连续的变量来表示元素的属性，如大小和位置，而不是将它们离散化到固定的几个选项中。这种方法允许模型在更精细的粒度上进行控制，从而提高生成布局的质量和灵活性。

布局的定义与表示
布局由多个元素组成，每个元素由类别标签和边界框定义。其中，表示元素类型，由中心坐标和大小比例（宽高比）定义。
布局的连续变量表示
与传统的离散扩散方法不同，本方法将边界框属性视为连续的大小和位置比例，范围从 0 到 1。这允许模型在更大的搜索空间内优化美学质量。
条件生成
为了处理条件生成任务，作者采用条件掩码作为数据增强手段，通过掩码固定部分元素的标签或大小属性，或者固定所有属性。

1.3 重建和美学约束

引入重建损失以鼓励模型在每个时间步骤上合理预测原始数据。总损失由简化损失和重建损失组成:

重建损失函数改进：为了解决全局对齐和重叠问题，在重建损失中加入了全局对齐约束和重叠约束两种美学约束。

对齐约束
对齐损失用于评估布局元素之间的对齐情况，定义了六种对齐类型：左对齐 (L)、水平中心对齐 (XC)、右对齐 (R)、顶部对齐 (T)、垂直中心对齐 (YC)、底部对齐 (B)。
重叠约束
防止生成布局中的元素重叠，使用均值成对交并比损失函数。
时间依赖的约束权重
由于约束函数在参数空间内引入了许多局部最小值，直接在嘈杂的布局上应用对齐和重叠损失会阻碍准确的重建，为了缓解这个问题，引入了时间依赖的约束权重。
只在较小的时间下实施约束，以便在噪声较低的预测中微调不对齐的坐标。根据经验选择了作为常数 β 计划的约束权重系列。约束权重系列的 β 计划被设定为，当较小且损坏过程尚未引入太多重叠时，权重激活约束。

二、实验

2.1 定量结果

2.2 LACE 和 LayoutDM 在条件生成任务中的定性比较

局限性及展望

尽管 LACE 在布局生成方面展示了进步，但它有一些限制。首先，它将布局元素限制为矩形形状，限制了表示的灵活性。此外，它缺乏背景和内容意识。该模型还仅处理有限数量的元素，并依赖标签集。这些限制可能限制了其在复杂、多样化设计场景中的应用。未来的工作可以采用任意形状更好地反映现实世界图形设计场景，因为大多数现有工作依赖于矩形框来表示元素。

参考文献

paper：TOWARDS ALIGNED LAYOUT GENERATION VIA DIFFUSION MODEL WITH AESTHETIC CONSTRAINTS，https://arxiv.org/pdf/2402.04754
code：https://github.com/puar-playground/LACE