扫码关注官方微信
扫码下载APP
此人很懒,什么也没有留下
SmolDocling基于 Hugging Face 的 SmolVLM-256M 构建,该模型在参数数量上比同类文档理解任务调整的视觉-语言模型小 5 到 10 倍。
假设有一个包含文本、表格和图表的文档页面图像,SmolDocling 将该图像转换为 DocTags 序列。
例如,文本内容将被封装在<text>标记中,表格结构将使用 OTSL 标记(如<fcel>、<ecel>等)表示,图表将被封装在<picture>标记中,并可能包含<caption>标记以表示图表标题。
<text>
<fcel>
<ecel>
<picture>
<caption>
DocTags 受 OTSL 启发,定义了一个结构化的词汇表和规则,明确区分文本内容和文档结构,减少了图像到序列模型的混淆。
<loc_x1><loc_y1><loc_x2><loc_y2>
使用道具 举报
本版积分规则 发表回复 回帖并转播 回帖后跳转到最后一页