返回顶部
热门问答 更多热门问答
技术文章 更多技术文章

​​超越Gemini和Qwen!3B小模型横扫中英文文档识别,表格公式识别提升超15%​

[复制链接]
链载Ai 显示全部楼层 发表于 前天 21:18 |阅读模式 打印 上一主题 下一主题

华中科技大学联合金山办公推出新一代文档解析模型MonkeyOCR!这款基于SRR(结构-识别-关系)三元组范式的创新模型,彻底颠覆了传统OCR技术的处理逻辑——既摆脱了模块化流水线的繁琐步骤,又规避了大模型全页解析的低效问题。在中文、英文及混合文档场景下,其3B轻量化模型展现出惊人实力:不仅以平均5.1%的性能优势超越主流方案MinerU,更在公式识别(+15%)和表格解析(+8.6%)等复杂任务上实现突破性进展。实测中,它甚至以3B参数量碾压Gemini 2.5 Pro、Qwen2.5 VL-72B等巨无霸模型,登顶英文文档解析榜首,同时多页处理速度高达0.84页/秒,效率达竞品7倍!无论是金融合同、学术论文还是跨语言文档,MonkeyOCR都将成为您数字化转型的超级助手。

实测验证!MonkeyOCR横扫OmniDocBench九类文档测试

为验证MonkeyOCR的实际效能,研究团队在OmniDocBench文档解析基准上进行了系统对比测试。该基准包含981页PDF文档,涵盖9种文档类型、4种版式风格和3种语言类别,能够全面评估真实场景下的文档解析能力。测试结果显示,MonkeyOCR在开源与闭源方案的对比中均展现出显著优势,其创新的SRR三元组范式在复杂文档处理上实现了质的飞跃。这一突破性表现,进一步验证了MonkeyOCR作为新一代文档解析解决方案的技术领先性。下图为OmniDocBench多任务端到端评测结果(注:*表示采用MonkeyOCR团队自主训练的中文版式检测优化模型)

九类文档测评:MonkeyOCR中文优化版以44.9%优势刷新纪录

研究团队为全面验证MonkeyOCR处理多样化文档的能力,基于OmniDocBench基准测试对九类文档展开系统评估。测试数据显示,MonkeyOCR在全部九类文档解析任务中均展现出最优综合性能,其中在六类文档中实现了最高的端到端识别准确率。值得注意的是,这款仅3B参数的轻量化模型整体准确率较InternVL3-8B提升5%,相比MinerU也有3.3%的性能优势。在最具挑战性的报纸类文档解析任务中,MonkeyOCR以4%的显著优势超越此前业界最优的MinerU系统,充分证明其在处理高密度复杂版式方面的卓越能力。

此次评测结果有力印证了MonkeyOCR优异的跨文档泛化能力和鲁棒性特征。研究团队特别指出,经过中文处理能力专项优化后,MonkeyOCR*在笔记类文档上的解析精度较基础版本大幅提升44.9%,创下该领域新的性能标杆。下表为OmniDocBench九类PDF文档端到端文本识别性能评估结果(注:*表示采用研究团队专项训练的中文版式检测优化模型)

小模型大能量:MonkeyOCR英语解析超越720亿参数大模型

模型规模并非绝对:MonkeyOCR以轻量化架构实现英语文档解析领先优势

研究团队在OmniDocBench基准上对比了开源大模型与闭源商业方案。实验表明:

1.英语文档:3B参数的MonkeyOCR以7.4%优势超越720亿参数的Qwen2.5-VL-72B,较Gemini 2.5 Pro领先0.8%

2.中文文档:Gemini 2.5 Pro暂居优势,显示MonkeyOCR在中文场景仍有优化空间

由此研究团队得出以下结论:

  • 首次验证轻量化模型可在特定任务上完胜千亿参数大模型
  • 英语文档的显著优势(7.4%)打破"参数规模决定性能"的固有认知
  • 明确中文解析为后续重点优化方向

示例代码

1.下载代码仓库,并安装依赖设置环境

conda create -n MonkeyOCR python=3.10
conda activate MonkeyOCR

gitclonehttps://github.com/Yuliang-Liu/MonkeyOCR.git
cdMonkeyOCR

# Install pytorch, see https://pytorch.org/get-started/previous-versions/ for your cuda version
pip install torch==2.5.1 torchvision==0.20.1 torchaudio==2.5.1 --index-url https://download.pytorch.org/whl/cu124
pip install -e .


2.创建模型,并从HuggingFace上加载预训练权重

pip install huggingface_hub

python tools/download_model.py

3.设置参数,调用模型进行推理

# Make sure in MonkeyOCR directory
python parse.py path/to/your.pdf
# or with image as input
pyhton parse.py path/to/your/image
# Specify output path and model configs path
python parse.py path/to/your.pdf -o ./output -c config.yaml



回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

链载AI是专业的生成式人工智能教程平台。提供Stable Diffusion、Midjourney AI绘画教程,Suno AI音乐生成指南,以及Runway、Pika等AI视频制作与动画生成实战案例。从提示词编写到参数调整,手把手助您从入门到精通。
  • 官方手机版

  • 微信公众号

  • 商务合作

  • Powered by Discuz! X3.5 | Copyright © 2025-2025. | 链载Ai
  • 桂ICP备2024021734号 | 营业执照 | |广西笔趣文化传媒有限公司|| QQ