返回顶部
热门问答 更多热门问答
技术文章 更多技术文章

0.35秒OCR整页文档,比Qwen2.5 VL高出10%的文档转换多模态模型!

[复制链接]
链载Ai 显示全部楼层 发表于 5 小时前 |阅读模式 打印 上一主题 下一主题
SmolDocling是一种多模态的图文到文本模型,专为高效的文档转换而设计,目前冲到huggingface热榜2th。
SmolDocling由Docling团队,IBM Research联合推出,其在A100 GPU上平均每页仅需0.35秒,256M参数比Qwen2.5 VL(7B)更高效!
SmolDocling功能特性:
DocTags高效标记 —— 引入DocTags,这是一种与DoclingDocuments完全兼容的高效且简洁的文档表示方式。
Image description
光学字符识别(OCR) —— 从图像中准确提取文本。
布局和定位 —— 保留文档结构和文档元素的边界框。

代码识别 —— 检测并格式化代码块,包括缩进。

公式识别 —— 识别并处理数学表达式。

图表识别 —— 提取并解释图表数据。
表格识别 —— 支持结构化表格提取,包括列标题和行标题。
图形分类 —— 区分图形和图形元素。
标题对应 —— 将标题链接到相关图像和图形。
列表分组 —— 正确组织和结构化列表元素。
全页转换 —— 处理整个页面,实现全面的文档转换,涵盖所有页面元素(代码、公式、表格、图表等)。
带边界框的OCR —— 使用边界框进行OCR区域识别。
通用文档处理 —— 针对科学和非科学文档进行了训练。
无缝集成Docling —— 导入Docling并以多种格式导出。
https://hf-mirror.com/ds4sd/SmolDocling-256M-previewhttps://arxiv.org/pdf/2503.11576SmolDocling:Anultra-compactvision-languagemodelforend-to-endmulti-modaldocumentconversion


回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

链载AI是专业的生成式人工智能教程平台。提供Stable Diffusion、Midjourney AI绘画教程,Suno AI音乐生成指南,以及Runway、Pika等AI视频制作与动画生成实战案例。从提示词编写到参数调整,手把手助您从入门到精通。
  • 官方手机版

  • 微信公众号

  • 商务合作

  • Powered by Discuz! X3.5 | Copyright © 2025-2025. | 链载Ai
  • 桂ICP备2024021734号 | 营业执照 | |广西笔趣文化传媒有限公司|| QQ