链载Ai
标题: 微软 Glyph-ByT5:让 AI 生成精准视觉文本成为现实 [打印本页]
作者: 链载Ai 时间: 前天 15:13
标题: 微软 Glyph-ByT5:让 AI 生成精准视觉文本成为现实

ingFang SC", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;font-size: 18.24px;font-weight: bold;display: table;margin: 2em auto 1em;padding-right: 1em;padding-left: 1em;border-bottom: 2px solid rgb(15, 76, 129);color: rgb(63, 63, 63);">微软 Glyph-ByT5:让 AI 生成精准视觉文本成为现实!ingFang SC";text-wrap: wrap;line-height: 1.75;font-size: 16px;margin: 1.5em 8px;letter-spacing: 0.1em;color: rgb(63, 63, 63);">AI 生成图像技术近年来发展迅猛,DALL·E 3 和 Stable Diffusion 等模型已经能够生成以假乱真的图像。然而,一个长期困扰 AI 社区的难题是如何让 AI 精准地渲染视觉文本,尤其是在处理长文本和多行布局时。想象一下,如果 AI 可以自动生成包含精准文字的海报、卡片、宣传册,甚至可以将文字无缝地融入到现实世界的照片中,那将是多么令人兴奋的应用!ingFang SC", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;font-size: 16px;margin: 1.5em 8px;letter-spacing: 0.1em;color: rgb(63, 63, 63);">为了解决这个问题,微软研究院的学者们开发了一种名为Glyph-ByT5的定制文本编码器。Glyph-ByT5 的诞生,标志着 AI 生成精准视觉文本迈出了关键性的一步!ingFang SC", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;font-size: 17.6px;font-weight: bold;display: table;margin: 4em auto 2em;padding-right: 0.2em;padding-left: 0.2em;background: rgb(15, 76, 129);color: rgb(255, 255, 255);">现有文本编码器的局限性ingFang SC", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;font-size: 16px;margin: 1.5em 8px;letter-spacing: 0.1em;color: rgb(63, 63, 63);">传统的文本编码器,如广泛使用的 CLIP,主要侧重于理解图像的概念,而对图像的细节,特别是文字的精准性关注不足。常用的 T5 文本编码器,虽然在语言理解方面表现出色,但缺乏与视觉信号的有效对齐。ingFang SC", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;font-size: 16px;margin: 1.5em 8px;letter-spacing: 0.1em;color: rgb(63, 63, 63);">这种局限性导致 AI 生成的图像中的文字常常出现错误,例如拼写错误、字体不一致、布局混乱等。这严重阻碍了 AI 生成图像技术在设计、广告、增强现实等领域的应用。ingFang SC", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;font-size: 17.6px;font-weight: bold;display: table;margin: 4em auto 2em;padding-right: 0.2em;padding-left: 0.2em;background: rgb(15, 76, 129);color: rgb(255, 255, 255);">Glyph-ByT5 的解决方案ingFang SC", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;font-size: 16px;margin: 1.5em 8px;letter-spacing: 0.1em;color: rgb(63, 63, 63);">Glyph-ByT5 的核心思想是将字符感知的 ByT5 编码器与字形图像进行精准对齐,从而使 AI 能够像人类一样理解和渲染文字。ingFang SC", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;font-weight: bold;margin-top: 2em;margin-right: 8px;margin-bottom: 0.75em;padding-left: 8px;border-left: 3px solid rgb(15, 76, 129);color: rgb(63, 63, 63);">创建大规模数据集:让 AI 学习精准的字形ingFang SC", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;font-size: 16px;margin: 1.5em 8px;letter-spacing: 0.1em;color: rgb(63, 63, 63);">为了训练 Glyph-ByT5,研究人员创建了一个包含100 万对合成数据的字形文本数据集 (GlyphByT5Pretraining 数据集)。这个数据集涵盖了512 种不同的字体和100 种不同的颜色,为 Glyph-ByT5 提供了丰富的学习素材。图 1:Glyph-ByT5 生成的图像示例,包括包含段落的图像、设计图像以及包含场景文本的图像盒子级对比损失:精准对齐文本和字形图像
研究人员还提出了一种名为盒子级对比损失的新型损失函数。与传统的图像级对比损失不同,盒子级对比损失将每个文本框及其对应的文本视为一个实例,从而实现更细粒度的对齐。
其数学公式如下:
Lbox=-(1/(2*sum(|Bi|foriinrange(1,|N|+1))))*sum(sum(log(exp(t*xji*yji)/Zx)+log(exp(t*xji*yji)/Zy)forjinrange(1,|Bi|+1))foriinrange(1,|N|+1))
其中:
• N:表示同一批次内的所有图像-文本对。
• Bi:表示第 i 个图像-文本对中的盒子-子文本对的数量。
• xji:表示第 i 个图像-文本对中第 j 个盒子的盒子嵌入。
• yji:表示第 i 个图像-文本对中第 j 个盒子的子文本嵌入。
• Zx, Zy:是归一化因子。
• t:是一个可学习的温度参数。
字形增强:提高训练效率和模型的字符感知能力
为了进一步提高训练效率和模型的字符感知能力,Glyph-ByT5 还集成了字形增强方案。该方案通过对字形图像进行字符替换、重复、删除和添加等操作,构建了信息更丰富的负样本,帮助模型更好地学习字形的特征。
(a)
(b)
(c)
(d)
(e)
(f)
(g)
(h)
图 2:字形增强方案示例. (a) 原始字形. (b) 字符替换 (Happy → Hdppy). (c) 字符重复 (Happy → Happpppy). (d) 字符删除 (Happy → Hapy). (e) 字符添加 (Graduation → Gradumation). (f) 单词替换 (Graduation → Gauatikn). (g) 单词重复 (Kim → Kim Kim). (h) 单词删除 (Happy Graduation Kim → Graduation).Glyph-SDXL: 精准设计图像生成
为了验证 Glyph-ByT5 的有效性,研究人员将其与强大的SDXL模型集成,创建了一个名为Glyph-SDXL(Glyph-SDXL 模型) 的设计图像生成模型。
区域级多头交叉注意力:融合字形知识和全局信息
Glyph-SDXL 引入了一种名为区域级多头交叉注意力的机制。该机制将 Glyph-ByT5 编码的字形知识与 SDXL 的全局语义信息融合,使模型能够在保持背景图像质量的同时,精准地渲染文本内容。
(a)
(b)
图 3:字形对齐预训练框架和区域级多头交叉注意力模块. (a) 字形对齐预训练 (b) 区域级多文本编码器融合在设计文本生成任务中,Glyph-SDXL 的拼写精度明显优于 DALL·E 3 等现有技术。用户可以使用 Glyph-SDXL 生成包含精准文字的海报、卡片、宣传册等设计图像,而无需担心文字错误。
场景文本生成:从设计到现实
为了让 Glyph-SDXL 能够生成与现实场景融合的精准场景文本,研究人员引入了设计到场景的对齐技术,并构建了一个混合数据集用于模型微调,该数据集包含以下三类数据:
1.场景文本和设计文本图像:从 TextSeg 数据集 [26] 中精选了 4000 张高质量图像。
2.SDXL 生成的合成图像:使用 SDXL 模型生成了 4000 张包含场景文本的合成图像。
3.设计图像:从图形设计网站收集了 4000 张设计图像。
通过在这个混合数据集上进行微调,Glyph-SDXL 被优化为一个精准的场景文本生成模型,名为Glyph-SDXL-Scene。
在 MARIO-Eval、SimpleBench 和 CreativeBench 等场景文本渲染基准测试中,Glyph-SDXL-Scene 的性能显著优于 GlyphControl 和 TextDiffuser 等现有技术。这意味着 Glyph-SDXL-Scene 可以将文字无缝地融入到现实世界的照片中,例如路标、广告牌等,为增强现实等应用提供了新的可能性。
以下是一些 Glyph-SDXL-Scene 生成的场景文本示例:
图 4:Glyph-SDXL-Scene 生成的多语言场景文本图像示例两大核心创新:精准渲染的秘密武器
Glyph-ByT5 的成功得益于两大核心创新:
1.盒子级对比损失:突破传统,实现精准对齐
传统的图像级对比损失只考虑整张图像的语义信息,而忽略了文本框级别的细节。Glyph-ByT5 采用盒子级对比损失,将每个文本框及其对应的文本视为一个实例,从而实现更细粒度的对齐。这种对齐方式使 Glyph-ByT5 能够学习段落级布局规划,并提高文本渲染的精准度。
1.区域级多头交叉注意力:融合信息,提升渲染效果
为了融合 Glyph-ByT5 编码的字形知识和 SDXL 的全局语义信息,Glyph-SDXL 引入了区域级多头交叉注意力机制。这种机制允许模型在保持背景图像质量的同时,精准地渲染文本内容。
总结与展望
Glyph-ByT5 的出现,标志着 AI 生成精准视觉文本迈出了关键性的一步。未来,研究人员计划探索更先进的视觉编码器,以提高模型对字体类型、颜色和布局的理解。他们还计划使用 GPT-4 等大型语言模型来自动生成排版布局,减少对人工标注的依赖。此外,研究人员还将研究字形混合技术,以创造新的、未见过的字体类型。
| 欢迎光临 链载Ai (https://www.lianzai.com/) |
Powered by Discuz! X3.5 |