链载Ai

标题: 【文档智能】再谈基于Transformer架构的文档智能理解方法论和相关数据集 [打印本页]

作者: 链载Ai    时间: 前天 09:30
标题: 【文档智能】再谈基于Transformer架构的文档智能理解方法论和相关数据集

前言

       文档的智能解析与理解成为知识管理的关键环节。特别是在处理扫描文档时,如何有效地理解和提取表单信息,成为了一个具有挑战性的问题。扫描文档的复杂性,包括其结构的多样性、非文本元素的融合以及手写与印刷内容的混合,都为自动化处理带来了难题。本文记录了基于Transformer架构的文档理解模型常见方法和相关数据集。

基于Transformer架构的文档理解模型

  1. Layout-Visual Fusion Models:这类模型专注于整合文档图像的布局和视觉信息与文本内容,以增强文档理解。这些模型结合了边界框坐标、图像嵌入和空间关系等特征,以捕获文档的结构布局。常见的有:

    更多的多模态的文档智能方法介绍可以参考之前文章《【文档智能】多模态预训练模型及相关数据集汇总》、《【文档智能】:GeoLayoutLM:一种用于视觉信息提取(VIE)的多模态预训练模型》

  • Graph-Based Models:基于图的文本关系建模技术使用图神经网络(GNNs)来捕获文档中文本片段之间的复杂关系。这些模型使用编码器处理文本和视觉特征,然后通过图模块构建一个软邻接矩阵来表示片段之间的成对关系。

  • Multi-Modal Fusion Models:这些大型模型通过引入新机制来更好地整合文本、布局和视觉信息。它们通常对Transformer架构进行修改,例如引入空间感知的自注意力机制,以捕获令牌之间的多维关系。

  • Cross-Modal Interaction Models:跨模态交互模型促进不同模态(如文本和布局)之间的交互。它们采用注意力机制和融合策略,以实现跨模态信息交换,增强数据的感知和理解。

  • Sequence-to-Sequence Models:编码器-解码器和序列到序列模型涉及编码器处理输入数据和解码器生成序列输出。这些模型可以用于文本生成、翻译和序列预测等任务。

  • Layout Representation and Language-Independent Models:布局表示模型专注于捕获和表示文档中组件的空间排列。语言独立模型旨在处理多种语言的文档理解。

  • Hybrid Transformer Architectures:混合Transformer架构利用创新设计来解决文档理解中的计算复杂性和多样化结构表示的挑战。这些模型通常结合了新的注意力机制,并利用Transformer架构来高效处理多模态信息。

  • 文档理解数据集

    数据集 文档内容 颜色 语言 文档数 文档类型
    FUNSD Machine Written / Handwritten B/W EN 199 Form Documents
    XFUND Machine Written / Handwritten B/W Multi-lingual 199/language Form Documents
    NAF Machine written pre-printed text and mostly handwritten B/W EN 865 Multiple
    IIT-CDIP Machine Written, Handwritten B/W EN 6,919,192 Multiple
    RVL-CDIP Machine Written, Handwritten B/W EN 400,000 Multiple
    PubLayNet Machine Written Color EN 364,232 Medical Literature
    SROIE Machine Written with occasional handwriting Color, B/W EN 1,000 Receipts
    CORD Machine Written with occasional handwriting Color EN 1,000 Receipts
    DocVQA Machine Written, Handwritten Color, B/W EN 12,767 Multiple
    Form-NLU Machine Written, Handwritten Color, B/W EN 10,857 Multiple
    VRDU Machine Written Color, B/W EN 2,556 Ad-buy
    1. 单模板学习(STL):模型在属于单一模板的文档上进行训练和评估。这意味着训练集、验证集和测试集都包含具有相同结构布局或模板的文档。此任务的目标是评估模型在面对一致且熟悉的文档布局时提取结构化数据的能力。

    2. 混合模板学习(MTL):模型在来自一组模板的文档上进行训练和评估。训练集、验证集和测试集包括来自不同但预定义模板的文档。此任务评估模型将其学习泛化到多样化文档布局的能力。

    3. 未见模板学习(UTL):未见模板学习任务挑战模型超越其训练经验。在此任务中,模型在来自模板子集的文档上进行训练,然后在训练期间从未遇到过的模板的文档上进行评估。目标是评估模型适应新的、以前未见过的文档布局和模板的能力。

    总结

           文档理解本质上是一个序列标注任务,类似于命名实体识别(NER),通常被称为关键信息提取(KIE)。本文总结了常见的文档智能理解相关模型方法及数据集,在文档理解领域,涉及到分析不同格式和模态(如文本、图像、表格和图表)的文档内容和结构。语言模型和Transformer架构在各种自然语言处理任务中展示了显著的能力,并且在计算机视觉和音频处理任务中也表现出色,这些模型在文档理解中的变革潜力已被广泛认可。








    欢迎光临 链载Ai (https://www.lianzai.com/) Powered by Discuz! X3.5