链载Ai

标题: 多模态文档智能解析模型进展-英伟达开源NVIDIA-Nemotron-Parse-v1.1 [打印本页]

作者: 链载Ai 时间: 前天 14:03
标题: 多模态文档智能解析模型进展-英伟达开源NVIDIA-Nemotron-Parse-v1.1

模型架构

模型整体架构与mBART类似，遵循vision-encoder-decoder架构，这点和之前字节开源的dolphin架构类似。

视觉编码器：ViT-H模型（https://huggingface.co/nvidia/C-RADIO）
适配层：一维卷积和归一化，以压缩潜在空间的维度和序列长度（13184个token到3201个token）
解码器：mBart [1] 10个块
分词器：使用此模型中包含的分词器受CC-BY-4.0许可证的约束
参数数量：< 1B

功能

版式分析识别的标签：标题、节、图例、索引、脚注、列表、表格、参考文献、图像

布局理解

表格提取

格式和方程提取

权重（已支持vllm推理）：https://huggingface.co/nvidia/NVIDIA-Nemotron-Parse-v1.1

欢迎光临链载Ai (http://www.lianzai.com/)

Powered by Discuz! X3.5