链载Ai

标题: Alibaba开源UReader:通用免OCR文档理解 [打印本页]

作者: 链载Ai    时间: 昨天 11:50
标题: Alibaba开源UReader:通用免OCR文档理解

UReader 的特点

UReader架构

自适应裁剪模块(Shape-Adaptive Cropping Module)

带有文本的图像具有各种宽高比和多种分辨率,简单地将图像大小调整为MLLM 的原始分辨率会导致文本模糊、扭曲和无法识别。因此,提出了形状自适应裁剪模块。

如何自适应呢?

  1. 网格应尽可能保留图像的分辨率

  2. 网格应适合输入图像的长宽比

大语言模型裁剪图像建模

MLLM 主要使用单个图像作为输入进行训练。由于裁剪模块,需要将多个图像的视觉特征输入到语言模型中。大语言模型的一维位置嵌入不能反映每个子图像的空间位置,这对于关联局部图像至关重要。

因此,结合二维裁剪位置编码来帮助语言模型理解裁剪图像之间的空间关系。

具体操作如下:

微调主要是两个任务:

文本阅读任务

根据图像中的文本和位置信息,按照常见的阅读顺序组织文本:从上到下,从左到右,依次按照指令回答。例如:

关键点生成任务

为了增强视觉和语言语义理解能力,设计一个辅助的关键点生成任务,该任务要求模型给出关于图像的一些关键点。

收集每个图像的 QA 对,并使用 Vicuna将它们转换为陈述句,这些陈述句最终被视为关于图像的关键点。我们还构建了一组模板来指导这项任务,例如







欢迎光临 链载Ai (https://www.lianzai.com/) Powered by Discuz! X3.5