|
SmolDocling是一种多模态的图文到文本模型,专为高效的文档转换而设计,目前冲到huggingface热榜2th。SmolDocling由Docling团队,IBM Research联合推出,其在A100 GPU上平均每页仅需0.35秒,256M参数比Qwen2.5 VL(7B)更高效!DocTags高效标记 —— 引入DocTags,这是一种与DoclingDocuments完全兼容的高效且简洁的文档表示方式。光学字符识别(OCR) —— 从图像中准确提取文本。布局和定位 —— 保留文档结构和文档元素的边界框。 代码识别 —— 检测并格式化代码块,包括缩进。 公式识别 —— 识别并处理数学表达式。 表格识别 —— 支持结构化表格提取,包括列标题和行标题。全页转换 —— 处理整个页面,实现全面的文档转换,涵盖所有页面元素(代码、公式、表格、图表等)。带边界框的OCR —— 使用边界框进行OCR区域识别。通用文档处理 —— 针对科学和非科学文档进行了训练。无缝集成Docling —— 导入Docling并以多种格式导出。https://hf-mirror.com/ds4sd/SmolDocling-256M-previewhttps://arxiv.org/pdf/2503.11576SmolDocling:Anultra-compactvision-languagemodelforend-to-endmulti-modaldocumentconversion
|