热搜: 活动交友 discuz

扫码关注官方微信

扫码下载APP

返回顶部

链载Ai › 核心板块 › 前沿技术 › 多模态文档智能解析模型进展-英伟达开源NVIDIA-Nemotron ...

链载Ai 关注Ta

发帖数41342
粉丝0

此人很懒，什么也没有留下

阅读作者更多精彩帖子

热门问答更多热门问答

技术文章更多技术文章

多模态文档智能解析模型进展-英伟达开源NVIDIA-Nemotron-Parse-v1.1

[复制链接]

链载Ai 显示全部楼层 发表于前天 14:03 |阅读模式

上一主题

下一主题

模型架构

模型整体架构与mBART类似，遵循vision-encoder-decoder架构，这点和之前字节开源的dolphin架构类似。

视觉编码器：ViT-H模型（https://huggingface.co/nvidia/C-RADIO）
适配层：一维卷积和归一化，以压缩潜在空间的维度和序列长度（13184个token到3201个token）
解码器：mBart [1] 10个块
分词器：使用此模型中包含的分词器受CC-BY-4.0许可证的约束
参数数量：< 1B

功能

版式分析识别的标签：标题、节、图例、索引、脚注、列表、表格、参考文献、图像

布局理解

表格提取

格式和方程提取

权重（已支持vllm推理）：https://huggingface.co/nvidia/NVIDIA-Nemotron-Parse-v1.1

回复

使用道具举报

发布主题

返回列表

链载AI是专业的生成式人工智能教程平台。提供Stable Diffusion、Midjourney AI绘画教程，Suno AI音乐生成指南，以及Runway、Pika等AI视频制作与动画生成实战案例。从提示词编写到参数调整，手把手助您从入门到精通。

官方手机版
微信公众号
商务合作

Powered by Discuz! X3.5 | Copyright © 2025-2025. | 链载Ai
桂ICP备2024021734号 | 营业执照 | |广西笔趣文化传媒有限公司||