OPPO推出GlyphDraw2，基于大模型的端到端海报生成方案

显示全部楼层

“GlyphDraw2: Automatic Generation of Complex Glyph Posters with Diffusion Models and Large Language Models”

海报具有醒目、直观、易于记忆和传播等特点，可以在宣传产品、推广活动、传递理念等方面起到重要的作用。目前文生图技术日趋成熟，但是在海标生成方面仍然有很大的提升空间。

为了解决这一问题，OPPO联合港中文发布基于LLM的端到端方案GlyphDraw2。GlyphDraw2采用三重交叉注意力机制的端到端文本渲染框架，旨在在详细的上下文背景中创建精确的海报文本。大量实验验证了该方法生成具有复杂和上下文丰富背景的海报图像的能力。

论文地址：https://arxiv.org/pdf/2407.02252

Github地址：https://github.com/OPPO-Mente-Lab/GlyphDraw2

摘要

本文介绍了海报生成的重要性以及现有技术的局限性，提出了一种基于三重交叉注意力机制的端到端文本渲染框架，能够生成高分辨率、具有可变宽高比的复杂背景下的精确文本海报。同时，作者还提供了一个超过1024像素分辨率的高分辨率数据集，并验证了该方法的有效性。

简介

文生图模型具有强大的生成能力，可以创建高度逼真和详细的图像。本研究集中在解决扩散模型的文本渲染限制上，目标是赋予扩散系统端到端海报生成能力。

基于扩散模型的海报生成为工业设计领域提供了新颖解决方案，具有重要的工业应用方向。挑战在于控制图像生成，一种方法是使用额外的适配器模块来编码新条件，并应用交叉注意机制将编码特征融入扩散生成过程。

最近的研究主要集中在布局控制和文本准确性上，但缺乏关于创建端到端文本渲染扩散模型的全面研究。确保高文本渲染准确性和丰富的视觉背景对生成的海报至关重要。

介绍了一个基于对齐学习的可控文本生成框架，用于海报生成，包括端到端的生成流程、用户提示的利用、文本布局精准性、背景视觉丰富性、高分辨率数据集、优秀的生成表现等四个方面的贡献。

相关工作

文生图模型。近年来，文本到图像扩散模型在图像生成方面表现出色。然而，基于文本的条件生成仍然无法满足所有用户的需求，因此越来越多的研究开始探索将新的条件整合到文本到图像扩散模型中。其中一种流行的方法是使用模型条件，将辅助模型用于编码新的条件因素，并将编码特征输入到扩散模型中。这种方法已经被广泛应用于可控生成的研究中。例如，IP-Adapter和ControlNet都是使用这种方法来实现可控生成。这些模型已经在空间控制、文本渲染和3D生成等领域得到了广泛研究和应用。

文本渲染。文本渲染在可控图像生成中的至关重要，目前的方法利用字形和位置信息学习字符绘制、利用形状信息增强文本到图像扩散模型、使用布局变换器和大型语言模型进行布局自动化等。此外，还有一些模型通过设计和训练字符感知和字形对齐的文本编码器来提供更强大的条件指导。本文的研究重点是自动生成布局并提高生成文本的准确性，同时保持背景的视觉吸引力。

基于LLM的文生图。最近的研究探索了使用LLM来生成新的细致条件，如布局规范、对象描述和样式表语言等，以指导图像生成。其中，LayoutGPT和LayoutPrompter利用LLM生成每个对象的样式表语言，而TextDiffuser-2、LLM Blueprint和Reason Out your Layout则利用LLM生成每个对象的边界框作为新的条件。生成布局边界框可以通过两种主要方法实现：高级专有模型的提示工程和微调开源LLM。与提示工程相比，微调LLM更高效，有助于开发端到端海报生成模型。因此，我们在海报布局信息上微调LLM，生成边界框来指导文本元素在海报中的位置。

数据集构建

扩展扩散模型需要一个包含不同字形分布、美观的布局和构图以及吸引人的背景的全面数据集。为了实现双语海报生成的多样性，开发了两个大规模高分辨率图像数据集，一个用于训练文本渲染能力，另一个专门用于海报生成，主要包含中文字形。

本文为海报生成任务准备的两个数据集：通用数据集和海报数据集。通过数据预处理程序，从通用数据集中筛选高质量的图像，并使用PP-OCR精确定位和识别图像中的文本元素。为了提高数据集的质量，还引入了美学评分和图像处理技术。对于海报数据集中的小文本区域，采用了特定的处理方法，包括添加掩模和使用LaMa模型进行图像恢复。详细的过滤策略和统计分布在附录中给出。

方法

模型概览

模型分为四个部分：1. Fusion Text Encoder (FTE)用于整合文本和图像特征；2. Triples of Cross-Attention (TCA)引入两个交叉注意力层，提高字形渲染准确性；3. Auxiliary Alignment Loss (AAL)用于语义一致性学习，增强海报整体布局和背景信息；4. 使用fine-tuning LLM策略进行推理，自动生成符合用户描述的字形和坐标位置，实现端到端海报生成。

融合文本编码器

本方法借鉴了之前的作品，如Blip-Diffusion、Subject-Diffusion等，同时也常用作全局条件控制策略。首先，将输入的字形条件渲染成字形图像，然后传输到PP-OCR中提取相应的字形特征。接着，类似于AnyText的逻辑，字形特征将通过线性层进行特征对齐，与相应位置的标题融合，确保插拔式的功能模块化，无需微调文本编码器。

三重交叉注意力

为了确保生成的字形准确性，引入了ControlNet模块，并在原始交叉注意力层之后引入了新的自适应交叉注意力层。此外，为了解决生成段落或更大文本块的问题，还引入了第二个交叉注意力层。最终的TCA输出是三个交叉注意力层的总和。

辅助对齐损失

海报生成中需要关注字形生成的准确性、背景的和谐性以及图像背景的丰富性。我们的方法引入了额外的条件注入，包括ControlNet特征添加和TCA策略，以增加解码器组件的数量，以确保生成图像的可控性。然而，可控性往往会牺牲可编辑性或文本一致性。因此，我们引入了AAL来保持语义一致性，通过在重复的解码器块中应用AAL来最小化对整体布局和图像质量的影响。最终损失函数包括重要的超参数λ。

使用微调LLM进行推理

为了确保端到端海报生成，需要解决的最后一个紧急问题是消除手动干预，即预定义图像布局的过程。我们完全依赖用户的标题描述，并引入LLM来解决这个问题。此外，为了方便调用，我们已构建了自己的指令数据，并对开源语言模型进行了微调。

实验

实现细节

本文包含两个主要组件的模型。第一个组件是一个可控的文本到图像海报模型，使用SDXL作为框架，并结合PEA-Diffusion策略和CLIP编码器进行训练。模型具有1.6亿个可训练参数，采用AdamW优化器和两阶段渐进式训练策略。第二个组件是基于LLM的布局生成模型，使用Baichuan2进行训练，并采用随机规则的布局生成方法来提高稳定性。模型分别在64个A100 GPU上进行训练。

评估

评估集分为两部分，用于评估模型性能。第一部分是AnyText-Benchmark，包含1000张英文和中文图像。我们发现其中用于测试中文生成能力的1000张图像与英文数据混合，因此我们移除了这部分数据，留下915张作为评估的基准。

我们从两个方面评估文本渲染质量：(1)位置词准确率(PWAcc)计算特定位置生成的单词的准确性。(2)标准化编辑距离(NED)是两个字符串之间相似度的度量。需要注意的是，AnyText-Benchmark中的大部分英文评估集只包含一个英文单词，导致评估英文句子时缺乏精度，因此需要构建更复杂的评估集。

评估集包括复杂基准和海报基准两个子集，共有四个评估子集，包括中英文双语评估。复杂基准包括100个提示，其中中文提示随机组合排列字符，英文提示包含连续重复的较长单词。海报评估集包括120个描述海报生成的提示，旨在评估海报生成的布局准确性、稳健性和整体美学质量。评估使用三个指标：准确率、ClipScore和HPSv2。评估了不同方法，包括AnyText、ControlNet和StableDiffusion3（SD3）。

结果

我们的模型在渲染中英文文本方面的准确性明显优于AnyText，但在ClipScore指标上略低于GlyphDraw2。Acc指标基于PWAcc规则计算。

针对中文和英文分别设计了不同的评估集，包括复杂汉字和重复字母的英文单词等。评估指标包括准确率、ClipScore和HPSv2等。实验结果表明，该模型在文本生成准确率方面表现优异，尤其在海报生成方面表现最佳。同时，使用LLM预测文本框位置可以实现无需用户指定文本位置的端到端海报生成。

模型有四种任务模式，其中前两种需要预测四个位置坐标，最后两种则只需要预测两个坐标。实验结果表明，模型参数越大，微调效果越好，输出归一化可以提高准确率。最终选择了Baichuan2-13B模型，第三种任务模式。在自定义评估集上微调后，模型在标题、内容连续性和边界框大小等方面表现出优势。

消融分析

通过消融实验，发现TCA模块、AAL策略、FTE模块和ControlNet的条件输入都对生成海报的效果有影响。虽然该方法可以生成自由分辨率的海报，但仍存在一些问题，如文本边界框的预测精度较低、背景生成和文本渲染的平衡仍然比较困难等。作者表示未来将探索一些解决方案来解决这些问题。

总结

手动标注的高昂成本和有限可用性对字形生成模型的实际部署构成了重大挑战。本研究首先收集了包含中文和英文字形的高分辨率图像，然后构建了一个自动筛选过程来建立一个大规模数据集。建立了一个综合框架，融合文本和字形语义，利用各种信息层优化文本呈现的准确性和丰富性。数据集构建策略包括应用分辨率过滤标准，提取干净的包含字形的图像，并实施过滤规则来限制文本框的数量和大小。