链载Ai

标题: IBM放出『PDF灭霸』:2.56亿参数屠榜文档AI [打印本页]

作者: 链载Ai    时间: 昨天 13:06
标题: IBM放出『PDF灭霸』:2.56亿参数屠榜文档AI

SmolDocling基于 Hugging Face 的 SmolVLM-256M 构建,该模型在参数数量上比同类文档理解任务调整的视觉-语言模型小 5 到 10 倍。

SmolDocling架构

假设有一个包含文本、表格和图表的文档页面图像,SmolDocling 将该图像转换为 DocTags 序列。

例如,文本内容将被封装在<text>标记中,表格结构将使用 OTSL 标记(如<fcel><ecel>等)表示,图表将被封装在<picture>标记中,并可能包含<caption>标记以表示图表标题。

DocTags 格式

DocTags 受 OTSL 启发,定义了一个结构化的词汇表和规则,明确区分文本内容和文档结构,减少了图像到序列模型的混淆。

训练流程

预训练数据集

特定任务的数据集







欢迎光临 链载Ai (https://www.lianzai.com/) Powered by Discuz! X3.5