开源OCR工具Surya：新增表格识别功能 - 链载Ai

ingFang SC", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;letter-spacing: 0.1em;color: rgb(63, 63, 63);">在我们日常工作环境中，处理大量多语言文档、表格和复杂布局已经成为许多企业和个人的日常挑战。

ingFang SC", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;letter-spacing: 0.1em;color: rgb(63, 63, 63);">OCR（光学字符识别）工具的出现大大提升了文档处理的效率。

ingFang SC", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;letter-spacing: 0.1em;color: rgb(63, 63, 63);">Surya 作为一款开源 OCR 工具，在性能和功能上超越了许多现有的选择，尤其在表格识别和复杂布局分析方面表现得特别出色。

ingFang SC", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;display: table;padding: 0.3em 1em;color: rgb(255, 255, 255);background: rgb(51, 51, 51);border-radius: 8px;box-shadow: rgba(0, 0, 0, 0.1) 0px 4px 6px;">主要功能

ingFang SC", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;letter-spacing: 0.1em;color: rgb(63, 63, 63);">Surya 是一个针对文档处理优化的 OCR 工具，具备卓越的识别能力，尤其在处理表格、复杂布局和多语言文档时表现突出。

ingFang SC", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;letter-spacing: 0.1em;color: rgb(63, 63, 63);">以下是 Surya 的核心功能：

ingFang SC", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;background: rgba(0, 0, 0, 0.05);font-weight: bold;color: rgb(255, 255, 255);">

功能	描述
ingFang SC", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;padding: 0.5em 1em;color: rgb(63, 63, 63);word-break: keep-all;">支持 90+ 种语言	ingFang SC", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;padding: 0.5em 1em;color: rgb(63, 63, 63);word-break: keep-all;">可识别全球 90 多种语言，适用于国际化业务。
ingFang SC", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;padding: 0.5em 1em;color: rgb(63, 63, 63);word-break: keep-all;">行级文本检测	自动检测文本行，确保准确的切分和读取顺序。
`表格识别`	`自动检测表格的行、列、单元格，支持复杂表格布局。`
复杂布局识别	能识别图片、标题、段落等复杂文档元素。
高效文本识别	精准识别文本内容并保持正确的逻辑顺序。
本地运行与 API 支持	支持本地处理，适合高隐私需求；提供 API 便于集成批量处理。

Surya 的优势

1、通过使用先进的模型架构，显著提高了 OCR 的识别速度和精度，特别是在表格识别方面，超越了当前的 SoTA（State of the Art）模型 Table Transformer。

2、完全开源且允许商业用途，你不仅可以在个人项目中使用它，还可以将其集成到商业应用中。

3、Surya 支持 Windows、Mac 和 Linux 系统，并且可以本地部署。对于需要大规模离线处理文档的企业或个人来说，Surya 是一个理想的选择。

4、关键的一点，stars大于10.4k，开发团队非常活跃，持续更新。

支持的文档类型

如何安装？

Surya 的安装过程非常简单，它支持 Python 3.9 及以上版本，并依赖于 PyTorch。

对于非 GPU 设备或 Mac 设备，可能需要安装 CPU 版本的 PyTorch。

1. 使用 pip 安装

在首次运行时，Surya 会自动下载模型权重，确保能够正常使用。

2. Docker 安装

Surya 也可以通过 Docker 安装，非常适合需要隔离运行环境的用户：

3. 源码安装

如果你更倾向于手动安装，或者需要自定义 Surya 的功能，可以从 GitHub 克隆项目并自行编译：

如何使用？

Surya 提供了非常简洁的命令行接口和 Python API。以下是使用 Surya 进行 OCR 的基本方法：

1、命令行使用示例

通过以下命令进行 OCR 操作，支持图片、PDF 或文件夹批量处理：

生成的results.json文件将包含每个页面的检测结果，包括文本行、置信度、边框信息等。

2、Python API 使用示例

如果你更喜欢在代码中直接调用 Surya，可以参考以下 Python 示例：

表格识别与布局分析

Surya 在复杂文档的布局分析和表格识别方面也具有强大的能力。它可以自动检测并识别文档中的表格结构，包括行和列，并输出对应的 JSON 格式结果。

对于包含表格的 PDF 文件，Surya 可以自动检测表格并返回每个单元格的内容与位置。

性能

结语

Surya 是一款功能强大的开源 OCR 工具，能够高效地处理复杂表格、多语言文档以及各种文档类型的布局分析。

模型	每页时间（秒）	平均相似度 (⬆)
surya	.62	0.97
tesseract	.45	0.88