链载Ai

标题: 【文档智能】LACE:帮你自动生成文档布局的方法浅尝 [打印本页]

作者: 链载Ai    时间: 前天 10:36
标题: 【文档智能】LACE:帮你自动生成文档布局的方法浅尝

前言

往期很多文章都介绍了【文档智能】上布局识别(版式分析)的技术思路,版式分析是通过对文档版式进行布局识别,识别文档中的元素类型的过程。这次来看看一个有趣的思路,通过已有的元素类型,来生成可控的文档的布局

介绍之前,先概述下一些基础的概念。

背景

现有的扩散模型在处理布局属性时,要么将它们视为离散变量,要么视为连续变量,并且在数据损坏过程中使用基于类别和高斯噪声的机制。这些不同的损坏机制在生成过程中产生不同的模式。具体来说,离散扩散从空白画布开始,逐步添加元素,而连续扩散则从随机布局开始,并随着时间的推移将其细化为有组织的布局,这在建模方面更加灵活。

然而,尽管扩散模型在 FID 分数上取得了最先进的成绩,但它们在对齐和最大交并比(MaxIoU)分数上的表现通常不如早期的基于 Transformer 的模型,尤其是在无条件生成方面。这些指标可以用于在连续扩散模型中的约束优化,以提高布局的美学质量。但是,由于量化几何属性的不可微性,离散模型无法利用这一优化潜力。相比之下,连续扩散模型在任务统一方面面临挑战,因为高斯分布的样本空间和数据分布(画布范围和概率单纯形)是不同的。

为了解决这些问题,提出一个统一的模型-LACE,旨在连续空间中生成各种任务的几何和分类属性。LACE 模型采用连续扩散模型作为基础,并引入了可微的美学约束函数来增强模型性能。此外,还设计了全局对齐损失成对重叠损失,这些在训练和后处理阶段作为约束函数

一、方法

1.1 连续扩散模型

连续扩散模型是一种生成模型,它通过一个正向和逆向的马尔可夫过程来描述数据的生成过程。

训练目标(损失函数):

1.2 连续布局生成

连续布局生成是指在布局元素的生成过程中,使用连续的变量来表示元素的属性,如大小和位置,而不是将它们离散化到固定的几个选项中。这种方法允许模型在更精细的粒度上进行控制,从而提高生成布局的质量和灵活性。

1.3 重建和美学约束

引入重建损失以鼓励模型在每个时间步骤上合理预测原始数据。总损失由简化损失 和重建损失 组成:

重建损失函数改进:为了解决全局对齐和重叠问题,在重建损失中加入了全局对齐约束重叠约束两种美学约束

二、实验

2.1 定量结果

2.2 LACE 和 LayoutDM 在条件生成任务中的定性比较

局限性及展望

尽管 LACE 在布局生成方面展示了进步,但它有一些限制。首先,它将布局元素限制为矩形形状,限制了表示的灵活性。此外,它缺乏背景和内容意识。该模型还仅处理有限数量的元素,并依赖标签集。这些限制可能限制了其在复杂、多样化设计场景中的应用。未来的工作可以采用任意形状更好地反映现实世界图形设计场景,因为大多数现有工作依赖于矩形框来表示元素。

参考文献








欢迎光临 链载Ai (https://www.lianzai.com/) Powered by Discuz! X3.5