链载Ai

标题: GitHub 收获 30.6k Star,一款开源的 PDF 处理工具,专为将扫描的 PDF 文件转换为可搜索、可复制的文档 [打印本页]

作者: 链载Ai    时间: 4 小时前
标题: GitHub 收获 30.6k Star,一款开源的 PDF 处理工具,专为将扫描的 PDF 文件转换为可搜索、可复制的文档
ingFang SC", system-ui, -apple-system, BlinkMacSystemFont, "Helvetica Neue", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;letter-spacing: 0.034em;">


ingFang SC", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;display: table;padding: 0.3em 1em;color: rgb(255, 255, 255);background: rgb(0, 152, 116);border-radius: 8px;box-shadow: rgba(0, 0, 0, 0.1) 0px 4px 6px;">OCRmyPDF

ingFang SC", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;font-size: 14px;font-style: italic;padding: 1em 1em 1em 2em;border-radius: 6px;color: rgba(0, 0, 0, 0.6);background: rgb(247, 247, 247);box-shadow: rgba(0, 0, 0, 0.05) 0px 4px 6px;">

ingFang SC", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;font-size: 1em;display: block;letter-spacing: 0.1em;color: rgb(63, 63, 63);">ingFang SC", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;font-size: inherit;color: rgb(0, 152, 116);">OCRmyPDF是一款开源的 PDF 处理工具,通过添加 OCR 文本层,OCRmyPDF 能够将无法直接编辑的扫描 PDF 文件变为可以搜索和编辑的格式,同时保留原始布局和图像质量。支持 Windows、macOS、Linux 与 FreeBSD 平台,也可通过 Docker 镜像运行。

ingFang SC", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;font-feature-settings: normal;font-variation-settings: normal;font-size: 12.6px;margin: 10px 8px;background: rgb(254, 254, 254);color: rgb(84, 84, 84);text-align: left;line-height: 1.5;overflow-x: auto;border-radius: 8px;box-shadow: rgba(0, 0, 0, 0.05) 0px 0px 10px inset;padding: 0px !important;">•项目地址:https://github.com/ocrmypdf/OCRmyPDF
•开发者:James R. Barlow(核心)及社区贡献者
•Stars / Forks:约 30.6k ⭐ / 2.1k 🍴
•License:Mozilla Public License 2.0(MPL‑2.0,核心)/文档为 CC‑BY‑SA 4.0
•技术栈:Python 3, Shell, Ghostscript, Tesseract, qpdf, pngquant, jbig2enc
•目标用户:对扫描文档进行 OCR 的个人用户、图书馆/档案数字化、法律文件归档等。
ingFang SC", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;font-size: 14px;color: rgb(63, 63, 63);">

ingFang SC", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;padding-left: 12px;color: rgb(63, 63, 63);">✨ 核心功能亮点

🛠 安装与使用指南

安装步骤

方法 A:推荐(包管理器/Docker 快速安装)

方法 B:进阶用户(Python + pip 安装)

  1. 1. 安装依赖(Unix/macOS):
brewinstallghostscripttesseractqpdfpngquant

或在 Debian/Ubuntu:

sudo apt update
sudo apt install ghostscript tesseract-ocr tesseract-ocr-eng qpdf pngquant
  1. 2. 安装 OCRmyPDF:
pipinstall/upgradeocrmypdf
  1. 3. 安装语言包(如中文):
sudoaptinstalltesseract-ocr-chi-sim

然后执行如下命令:

ocrmypdf-leng+chi_siminput.pdfoutput.pdf

使用流程示例

# 单页测试
ocrmypdf input.pdf output.pdf

# 在原文件基础上进行 OCR(成功覆盖原文件)
ocrmypdf input.pdf input.pdf

# 添加识别语言(英文 + 简体中文)
ocrmypdf -l eng+chi_sim scanned.pdf searchable.pdf

# 自动纠偏并输出 PDF/A
ocrmypdf --rotate-pages --deskew --output-type pdfa input.pdf output.pdf

# 批量处理(示例替换当前目录中所有 PDF,需自行验证)
for f in *.pdf; do
ocrmypdf "$f" "ocr/$f"
done

安装完成后,用 ocrmypdf --help 可查看所有命令选项及说明。






欢迎光临 链载Ai (https://www.lianzai.com/) Powered by Discuz! X3.5