0.35秒OCR整页文档，比Qwen2.5 VL高出10%的文档转换多模态模型！

显示全部楼层

SmolDocling是一种多模态的图文到文本模型，专为高效的文档转换而设计，目前冲到huggingface热榜2th。

SmolDocling由Docling团队，IBM Research联合推出，其在A100 GPU上平均每页仅需0.35秒，256M参数比Qwen2.5 VL（7B）更高效！

SmolDocling功能特性：

DocTags高效标记 —— 引入DocTags，这是一种与DoclingDocuments完全兼容的高效且简洁的文档表示方式。

光学字符识别（OCR） —— 从图像中准确提取文本。

布局和定位 —— 保留文档结构和文档元素的边界框。

代码识别 —— 检测并格式化代码块，包括缩进。

公式识别 —— 识别并处理数学表达式。

图表识别 —— 提取并解释图表数据。

表格识别 —— 支持结构化表格提取，包括列标题和行标题。

图形分类 —— 区分图形和图形元素。

标题对应 —— 将标题链接到相关图像和图形。

列表分组 —— 正确组织和结构化列表元素。

全页转换 —— 处理整个页面，实现全面的文档转换，涵盖所有页面元素（代码、公式、表格、图表等）。

带边界框的OCR —— 使用边界框进行OCR区域识别。

通用文档处理 —— 针对科学和非科学文档进行了训练。

无缝集成Docling —— 导入Docling并以多种格式导出。

https://hf-mirror.com/ds4sd/SmolDocling-256M-previewhttps://arxiv.org/pdf/2503.11576SmolDocling:Anultra-compactvision-languagemodelforend-to-endmulti-modaldocumentconversion