Alibaba出品:OmniParser通用文档复杂场景下OCR抽取

显示全部楼层

本公众号主要关注NLP、CV、LLM、RAG、Agent等AI前言技术，免费分享业界实战案例与课程，助力您全面拥抱AIGC。

三大OCR任务统一抽取

Omniparser框架以及核心思想

作者采用基于文本中心点的连贯输入和输出模式，在两个阶段，将同一文本划分为三个部分：

通过两阶段、三种序列方式可以有效地压缩原始的长序列。

此外，该框架使用空间和字符导向的窗口提示，增强对文本空间排列和单词语义的理解。

通过上图表格解析任务，我们可以知道omniparser的OCR解析流程。

首先，对图片进行编码(image encoder)
然后，在stage1，利用视觉模型对表格、文本内容、重要信息进行中心点定位
接着，在stage2，将定位的区域，经过区域解码（region decoder），得到polygon Sequence
同时，在stage2, 将定位的重要信息，进行文本内容序列化解码（content decoder），得到文本内容content sequence
最后，综合polygon Sequence和content sequence二者的信息，生成文本的定位信息（text spotting）、表格的序列信息（table recognition）和重要信息（key information extraction）