超越Gemini和Qwen！3B小模型横扫中英文文档识别，表格公式识别提升超15%

显示全部楼层

华中科技大学联合金山办公推出新一代文档解析模型MonkeyOCR！这款基于SRR（结构-识别-关系）三元组范式的创新模型，彻底颠覆了传统OCR技术的处理逻辑——既摆脱了模块化流水线的繁琐步骤，又规避了大模型全页解析的低效问题。在中文、英文及混合文档场景下，其3B轻量化模型展现出惊人实力：不仅以平均5.1%的性能优势超越主流方案MinerU，更在公式识别（+15%）和表格解析（+8.6%）等复杂任务上实现突破性进展。实测中，它甚至以3B参数量碾压Gemini 2.5 Pro、Qwen2.5 VL-72B等巨无霸模型，登顶英文文档解析榜首，同时多页处理速度高达0.84页/秒，效率达竞品7倍！无论是金融合同、学术论文还是跨语言文档，MonkeyOCR都将成为您数字化转型的超级助手。

实测验证！MonkeyOCR横扫OmniDocBench九类文档测试

为验证MonkeyOCR的实际效能，研究团队在OmniDocBench文档解析基准上进行了系统对比测试。该基准包含981页PDF文档，涵盖9种文档类型、4种版式风格和3种语言类别，能够全面评估真实场景下的文档解析能力。测试结果显示，MonkeyOCR在开源与闭源方案的对比中均展现出显著优势，其创新的SRR三元组范式在复杂文档处理上实现了质的飞跃。这一突破性表现，进一步验证了MonkeyOCR作为新一代文档解析解决方案的技术领先性。下图为OmniDocBench多任务端到端评测结果（注：*表示采用MonkeyOCR团队自主训练的中文版式检测优化模型）

九类文档测评：MonkeyOCR中文优化版以44.9%优势刷新纪录

研究团队为全面验证MonkeyOCR处理多样化文档的能力，基于OmniDocBench基准测试对九类文档展开系统评估。测试数据显示，MonkeyOCR在全部九类文档解析任务中均展现出最优综合性能，其中在六类文档中实现了最高的端到端识别准确率。值得注意的是，这款仅3B参数的轻量化模型整体准确率较InternVL3-8B提升5%，相比MinerU也有3.3%的性能优势。在最具挑战性的报纸类文档解析任务中，MonkeyOCR以4%的显著优势超越此前业界最优的MinerU系统，充分证明其在处理高密度复杂版式方面的卓越能力。

此次评测结果有力印证了MonkeyOCR优异的跨文档泛化能力和鲁棒性特征。研究团队特别指出，经过中文处理能力专项优化后，MonkeyOCR*在笔记类文档上的解析精度较基础版本大幅提升44.9%，创下该领域新的性能标杆。下表为OmniDocBench九类PDF文档端到端文本识别性能评估结果（注：*表示采用研究团队专项训练的中文版式检测优化模型）

小模型大能量：MonkeyOCR英语解析超越720亿参数大模型
模型规模并非绝对：MonkeyOCR以轻量化架构实现英语文档解析领先优势
研究团队在OmniDocBench基准上对比了开源大模型与闭源商业方案。实验表明：
1.英语文档：3B参数的MonkeyOCR以7.4%优势超越720亿参数的Qwen2.5-VL-72B，较Gemini 2.5 Pro领先0.8%

2.中文文档：Gemini 2.5 Pro暂居优势，显示MonkeyOCR在中文场景仍有优化空间

由此研究团队得出以下结论：

首次验证轻量化模型可在特定任务上完胜千亿参数大模型
英语文档的显著优势（7.4%）打破"参数规模决定性能"的固有认知
明确中文解析为后续重点优化方向

示例代码

1.下载代码仓库，并安装依赖设置环境

conda create -n MonkeyOCR python=3.10
conda activate MonkeyOCR

gitclonehttps://github.com/Yuliang-Liu/MonkeyOCR.git
cdMonkeyOCR

# Install pytorch, see https://pytorch.org/get-started/previous-versions/ for your cuda version
pip install torch==2.5.1 torchvision==0.20.1 torchaudio==2.5.1 --index-url https://download.pytorch.org/whl/cu124
pip install -e .

2.创建模型，并从HuggingFace上加载预训练权重
pip install huggingface_hub python tools/download_model.py
3.设置参数，调用模型进行推理
# Make sure in MonkeyOCR directory python parse.py path/to/your.pdf # or with image as input pyhton parse.py path/to/your/image # Specify output path and model configs path python parse.py path/to/your.pdf -o ./output -c config.yaml

​​超越Gemini和Qwen！3B小模型横扫中英文文档识别，表格公式识别提升超15%​

九类文档测评：MonkeyOCR中文优化版以44.9%优势刷新纪录

小模型大能量：MonkeyOCR英语解析超越720亿参数大模型

2.中文文档：Gemini 2.5 Pro暂居优势，显示MonkeyOCR在中文场景仍有优化空间

由此研究团队得出以下结论：

示例代码

1.下载代码仓库，并安装依赖设置环境

1.下载代码仓库，并安装依赖设置环境

2.创建模型，并从HuggingFace上加载预训练权重

3.设置参数，调用模型进行推理

超越Gemini和Qwen！3B小模型横扫中英文文档识别，表格公式识别提升超15%