SmolDocling基于 Hugging Face 的 SmolVLM-256M 构建,该模型在参数数量上比同类文档理解任务调整的视觉-语言模型小 5 到 10 倍。
假设有一个包含文本、表格和图表的文档页面图像,SmolDocling 将该图像转换为 DocTags 序列。
例如,文本内容将被封装在<text>标记中,表格结构将使用 OTSL 标记(如<fcel>、<ecel>等)表示,图表将被封装在<picture>标记中,并可能包含<caption>标记以表示图表标题。
DocTags 受 OTSL 启发,定义了一个结构化的词汇表和规则,明确区分文本内容和文档结构,减少了图像到序列模型的混淆。
<loc_x1><loc_y1><loc_x2><loc_y2>。| 欢迎光临 链载Ai (https://www.lianzai.com/) | Powered by Discuz! X3.5 |