链载Ai

标题: 微软 Glyph-ByT5：让 AI 生成精准视觉文本成为现实 [打印本页]

作者: 链载Ai 时间: 前天 15:13
标题: 微软 Glyph-ByT5：让 AI 生成精准视觉文本成为现实

ingFang SC", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;font-size: 18.24px;font-weight: bold;display: table;margin: 2em auto 1em;padding-right: 1em;padding-left: 1em;border-bottom: 2px solid rgb(15, 76, 129);color: rgb(63, 63, 63);">微软 Glyph-ByT5：让 AI 生成精准视觉文本成为现实！

ingFang SC";text-wrap: wrap;line-height: 1.75;font-size: 16px;margin: 1.5em 8px;letter-spacing: 0.1em;color: rgb(63, 63, 63);">AI 生成图像技术近年来发展迅猛，DALL·E 3 和 Stable Diffusion 等模型已经能够生成以假乱真的图像。然而，一个长期困扰 AI 社区的难题是如何让 AI 精准地渲染视觉文本，尤其是在处理长文本和多行布局时。想象一下，如果 AI 可以自动生成包含精准文字的海报、卡片、宣传册，甚至可以将文字无缝地融入到现实世界的照片中，那将是多么令人兴奋的应用！

ingFang SC", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;font-size: 16px;margin: 1.5em 8px;letter-spacing: 0.1em;color: rgb(63, 63, 63);">为了解决这个问题，微软研究院的学者们开发了一种名为Glyph-ByT5的定制文本编码器。Glyph-ByT5 的诞生，标志着 AI 生成精准视觉文本迈出了关键性的一步！

ingFang SC", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;font-size: 17.6px;font-weight: bold;display: table;margin: 4em auto 2em;padding-right: 0.2em;padding-left: 0.2em;background: rgb(15, 76, 129);color: rgb(255, 255, 255);">现有文本编码器的局限性

ingFang SC", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;font-size: 16px;margin: 1.5em 8px;letter-spacing: 0.1em;color: rgb(63, 63, 63);">传统的文本编码器，如广泛使用的 CLIP，主要侧重于理解图像的概念，而对图像的细节，特别是文字的精准性关注不足。常用的 T5 文本编码器，虽然在语言理解方面表现出色，但缺乏与视觉信号的有效对齐。

ingFang SC", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;font-size: 16px;margin: 1.5em 8px;letter-spacing: 0.1em;color: rgb(63, 63, 63);">这种局限性导致 AI 生成的图像中的文字常常出现错误，例如拼写错误、字体不一致、布局混乱等。这严重阻碍了 AI 生成图像技术在设计、广告、增强现实等领域的应用。

ingFang SC", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;font-size: 17.6px;font-weight: bold;display: table;margin: 4em auto 2em;padding-right: 0.2em;padding-left: 0.2em;background: rgb(15, 76, 129);color: rgb(255, 255, 255);">Glyph-ByT5 的解决方案

ingFang SC", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;font-size: 16px;margin: 1.5em 8px;letter-spacing: 0.1em;color: rgb(63, 63, 63);">Glyph-ByT5 的核心思想是将字符感知的 ByT5 编码器与字形图像进行精准对齐，从而使 AI 能够像人类一样理解和渲染文字。

ingFang SC", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;font-weight: bold;margin-top: 2em;margin-right: 8px;margin-bottom: 0.75em;padding-left: 8px;border-left: 3px solid rgb(15, 76, 129);color: rgb(63, 63, 63);">创建大规模数据集：让 AI 学习精准的字形

ingFang SC", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;font-size: 16px;margin: 1.5em 8px;letter-spacing: 0.1em;color: rgb(63, 63, 63);">为了训练 Glyph-ByT5，研究人员创建了一个包含100 万对合成数据的字形文本数据集 (GlyphByT5Pretraining 数据集)。这个数据集涵盖了512 种不同的字体和100 种不同的颜色，为 Glyph-ByT5 提供了丰富的学习素材。

图 1：Glyph-ByT5 生成的图像示例，包括包含段落的图像、设计图像以及包含场景文本的图像

盒子级对比损失：精准对齐文本和字形图像

研究人员还提出了一种名为盒子级对比损失的新型损失函数。与传统的图像级对比损失不同，盒子级对比损失将每个文本框及其对应的文本视为一个实例，从而实现更细粒度的对齐。

其数学公式如下：

Lbox=-(1/(2*sum(|Bi|foriinrange(1,|N|+1))))*sum(sum(log(exp(t*xji*yji)/Zx)+log(exp(t*xji*yji)/Zy)forjinrange(1,|Bi|+1))foriinrange(1,|N|+1))

其中：

• N：表示同一批次内的所有图像-文本对。
• Bi：表示第 i 个图像-文本对中的盒子-子文本对的数量。
• xji：表示第 i 个图像-文本对中第 j 个盒子的盒子嵌入。
• yji：表示第 i 个图像-文本对中第 j 个盒子的子文本嵌入。
• Zx, Zy：是归一化因子。
• t：是一个可学习的温度参数。

字形增强：提高训练效率和模型的字符感知能力

为了进一步提高训练效率和模型的字符感知能力，Glyph-ByT5 还集成了字形增强方案。该方案通过对字形图像进行字符替换、重复、删除和添加等操作，构建了信息更丰富的负样本，帮助模型更好地学习字形的特征。

(a)(b)(c)(d)(e)(f)(g)(h)

图 2：字形增强方案示例. (a) 原始字形. (b) 字符替换 (Happy → Hdppy). (c) 字符重复 (Happy → Happpppy). (d) 字符删除 (Happy → Hapy). (e) 字符添加 (Graduation → Gradumation). (f) 单词替换 (Graduation → Gauatikn). (g) 单词重复 (Kim → Kim Kim). (h) 单词删除 (Happy Graduation Kim → Graduation).

Glyph-SDXL: 精准设计图像生成

为了验证 Glyph-ByT5 的有效性，研究人员将其与强大的SDXL模型集成，创建了一个名为Glyph-SDXL(Glyph-SDXL 模型) 的设计图像生成模型。

区域级多头交叉注意力：融合字形知识和全局信息

Glyph-SDXL 引入了一种名为区域级多头交叉注意力的机制。该机制将 Glyph-ByT5 编码的字形知识与 SDXL 的全局语义信息融合，使模型能够在保持背景图像质量的同时，精准地渲染文本内容。

(a)(b)

图 3：字形对齐预训练框架和区域级多头交叉注意力模块. (a) 字形对齐预训练 (b) 区域级多文本编码器融合

在设计文本生成任务中，Glyph-SDXL 的拼写精度明显优于 DALL·E 3 等现有技术。用户可以使用 Glyph-SDXL 生成包含精准文字的海报、卡片、宣传册等设计图像，而无需担心文字错误。

场景文本生成：从设计到现实

为了让 Glyph-SDXL 能够生成与现实场景融合的精准场景文本，研究人员引入了设计到场景的对齐技术，并构建了一个混合数据集用于模型微调，该数据集包含以下三类数据：

1.场景文本和设计文本图像：从 TextSeg 数据集 [26] 中精选了 4000 张高质量图像。
2.SDXL 生成的合成图像：使用 SDXL 模型生成了 4000 张包含场景文本的合成图像。
3.设计图像：从图形设计网站收集了 4000 张设计图像。

通过在这个混合数据集上进行微调，Glyph-SDXL 被优化为一个精准的场景文本生成模型，名为Glyph-SDXL-Scene。

在 MARIO-Eval、SimpleBench 和 CreativeBench 等场景文本渲染基准测试中，Glyph-SDXL-Scene 的性能显著优于 GlyphControl 和 TextDiffuser 等现有技术。这意味着 Glyph-SDXL-Scene 可以将文字无缝地融入到现实世界的照片中，例如路标、广告牌等，为增强现实等应用提供了新的可能性。

以下是一些 Glyph-SDXL-Scene 生成的场景文本示例：

图 4：Glyph-SDXL-Scene 生成的多语言场景文本图像示例

两大核心创新：精准渲染的秘密武器

Glyph-ByT5 的成功得益于两大核心创新：

1.盒子级对比损失：突破传统，实现精准对齐

传统的图像级对比损失只考虑整张图像的语义信息，而忽略了文本框级别的细节。Glyph-ByT5 采用盒子级对比损失，将每个文本框及其对应的文本视为一个实例，从而实现更细粒度的对齐。这种对齐方式使 Glyph-ByT5 能够学习段落级布局规划，并提高文本渲染的精准度。

1.区域级多头交叉注意力：融合信息，提升渲染效果

为了融合 Glyph-ByT5 编码的字形知识和 SDXL 的全局语义信息，Glyph-SDXL 引入了区域级多头交叉注意力机制。这种机制允许模型在保持背景图像质量的同时，精准地渲染文本内容。

总结与展望

Glyph-ByT5 的出现，标志着 AI 生成精准视觉文本迈出了关键性的一步。未来，研究人员计划探索更先进的视觉编码器，以提高模型对字体类型、颜色和布局的理解。他们还计划使用 GPT-4 等大型语言模型来自动生成排版布局，减少对人工标注的依赖。此外，研究人员还将研究字形混合技术，以创造新的、未见过的字体类型。

欢迎光临链载Ai (https://www.lianzai.com/)