IBM 发布 Granite-Docling-258M：企业级文档 AI 的结构化进阶

显示全部楼层

1. Granite-Docling 到底解决了什么问题？

企业处理文档时常见的三个痛点：

Granite-Docling 的突破在于：它能直接输出DocTags——一种由 IBM 设计的文档结构标记语言，完整保留坐标、元素关系和阅读顺序。换句话说，它不仅告诉你“这行字是什么”，还会告诉你“它在哪个表格里、属于哪一列、和哪段文字相邻”。

这让下游任务（检索、RAG、知识图谱、数据分析）能够用更精准的索引和上下文，而不是在一堆“碎片化文本”里盲目搜索。

2. 技术架构：为什么能做到？

Granite-Docling-258M 并不是简单的 OCR 模型，而是一个轻量级的视觉语言模型（VLM）。它的核心架构由三部分组成：

训练方面，IBM 采用nanoVLM 框架，这是一套轻量、纯 PyTorch 的 VLM 训练工具，运行在Blue Vela H100 集群上完成。

相比 SmolDocling 预览版，新模型在稳定性和准确率上都有显著提升。例如：

很多人可能会问：输出 Markdown 或 JSON 不就够了吗？为什么 IBM 要额外发明 DocTags？

这里的核心在于“歧义消除”。

传统 OCR 输出：

| Name | Age |
|------|-----|
| Tom | 23 |

看似没问题，但当表格跨页、嵌套公式、包含图片时，Markdown 根本无法完整表示。

而 DocTags 会这样输出：

<Tableid="T1"coord="x1,y1,x2,y2">
<Row><Cellrow=1col=1>Tom</Cell><Cellrow=1col=2>23</Cell></Row>
</Table>

优势有三：

这对RAG（检索增强生成）来说尤为重要。过去很多企业抱怨，问答系统经常“答非所问”，就是因为底层索引缺乏结构信息，导致检索不到正确上下文。DocTags 的引入，能显著提高检索质量和问答准确性。

Granite-Docling 在英语之外，还提供了日语、阿拉伯语和中文的实验性支持。

虽然目前 IBM 强调这是“early-stage”，准确度不及英文，但这一步意义重大：

未来如果多语言能力进一步成熟，Granite-Docling 很可能成为“全球化企业文档 AI 的默认选择”。

IBM 的策略很清晰：Granite-Docling 不是通用 VLM，而是Docling 管道中的核心组件。

企业可以通过以下方式快速接入：

Docling CLI / SDK一条命令即可把 PDF、Office 文档、图片转换为 Markdown/HTML/JSON，自动调用 Granite-Docling。
多种推理框架支持包括 Hugging Face Transformers、vLLM、ONNX，以及专为 Apple Silicon 优化的 MLX。
开源许可Apache-2.0，不仅可以商用，还能二次开发。

这意味着企业可以用极低成本，把 Granite-Docling 嵌入现有的知识管理、RAG、数据分析管道，而不必担心闭源模型的黑箱问题。

Granite-Docling 的价值并不只是“模型参数升级”，而是生产力范式的转变：

对于金融、法律、科研、政府档案等场景，这种“结构保真”的能力尤其关键。它直接决定了文档能否被机器高效索引，进而影响到后续检索、问答、合规审计等一系列业务。

Granite-Docling 可能引发三大趋势：

IBM 的这一步，不仅是推出了一个模型，更是重新定义了Document AI 的技术路线。

从 SmolDocling 到 Granite-Docling，IBM 展现了一种“务实的进化”：不追求参数规模，而是聚焦企业刚需 ——如何让文档转换真正可用、可落地。

对于企业 IT 部门和开发者来说，Granite-Docling 不仅是一个开源模型，更是一块拼图，帮助他们把文档处理、知识检索和 AI 应用串成一条完整链路。

或许几年后，我们会发现：企业文档 AI 的拐点，就是从 Granite-Docling 开始的