返回顶部
热门问答 更多热门问答
技术文章 更多技术文章

突破文档解析极限:PaddleOCR-VL多模态文档解析方案发布,0.9B参数问鼎SOTA

[复制链接]
链载Ai 显示全部楼层 发表于 3 天前 |阅读模式 打印 上一主题 下一主题

2025年,PaddleOCR陆续推出了文字识别方案PP-OCRv5、文档解析方案PP-StructureV3、关键信息抽取方案PP-ChatOCRv4等多项重磅解决方案。得益于多项创新突破,PaddleOCR受到了用户的广泛青睐,并崛起为大模型产业化的关键工具。我们将把用户的信任转化为前进的动力,持续攀登OCR与文档解析技术的新高峰。
今天,我们正式发布新一代多模态文档解析模型方案PaddleOCR-VL!该方案仅0.9B参数就刷新了多个权威文档解析评测记录,并具备109种语言的文档解析能力。

模型介绍

PaddleOCR-VL是一款极致轻量高效的文档解析模型,专为文档中的元素识别设计。它的核心模型PaddleOCR-VL-0.9B集成了高效的视觉编码器和强大的语言模型,能够精准识别图片中的文本、手写汉字、表格、公式和图表等复杂元素。PaddleOCR-VL覆盖多达109种语言,无论是中文、英文等主流语言,还是小语种,都能实现轻松处理。与其他同类模型相比,PaddleOCR-VL不仅识别效果更好,资源消耗也非常低,速度快,效率高。

在多个公开和内部测试中,PaddleOCR-VL在整页文档解析和单个元素的识别方面都取得了业界领先的成绩,明显优于现有的其他方案。凭借这些优势,PaddleOCR-VL非常适合在各种实际场景中部署使用。

核心亮点

  • 紧凑而强大的VLM架构:核心模型PaddleOCR-VL-0.9B是一种专为资源高效推理设计的全新视觉语言模型,在文档类元素识别上取得卓越表现。通过将NaViT风格的动态高分辨率视觉编码器与轻量级ERNIE-4.5-0.3B语言模型相结合,显著提升了识别能力与解码效率。在保持高精度的同时降低计算开销,使其非常适合高效、实用的文档处理应用。

  • 文档解析的SOTA表现:PaddleOCR-VL在文档解析任务中取得最先进的性能。它在识别包含表格、公式和图表等元素的复杂文档方面表现优异,擅长手写文本与历史文档在内的多种挑战性内容类型。

  • 支持109种语言的文字识别:覆盖主要通用语言及多样书写体系(如俄语、阿拉伯语、印地语等),PaddleOCR-VL在多语种与全球化文档处理场景中具有广泛适用性。

方案简介

PaddleOCR-VL将复杂的文档解析任务分解为两个阶段。第一阶段PP-DocLayoutV2负责版面分析,定位语义区域并预测其阅读顺序。随后,第二阶段PaddleOCR-VL-0.9B基于这些版面预测,对文本、表格、公式和图表等多样化内容进行细粒度识别。最后,聚合两个阶段的输出,并将最终待预测文档化为结构化的Markdown和JSON文件。

案例展示

PaddleOCR-VL能够支持多种类型的文档解析,以下是一些预测案例的展示:

左右滑动查看更多

左右滑动查看更多

更多的案例可参考技术报告:

https://ernie.baidu.com/blog/publication/PaddleOCR-VL_Technical_Report.pdf

推理性能

下表展示了不同文档解析模型在A100上的端到端推理速度。凭借轻量化的模型结构,PaddleOCR-VL每秒可处理1881个Token,推理速度较MinerU2.5提升14.2%,较dots.ocr提升253.01%。在当前主流开源多模态OCR方案中,PaddleOCR-VL展现出显著的速度优势。

此外,近期PaddleOCR对PP-OCRv5的多语言文字识别能力也进行了升级,进一步扩展了对拉丁文相关语言的支持,并新增了对西里尔文、泰米尔文、泰卢固文、阿拉伯文和天城文等五大语种的识别能力。与PaddleOCR-VL 保持一致,现已支持多达109种语言的文字识别。

为了帮助您迅速且深入地了解并掌握PaddleOCR-VL多模态文档解析SOTA方案的技术理论及实战技巧,百度高级工程师将于10月23日(周四)18:00为您深度解析本次技术升级。此外,我们还将开设针对PaddleOCR-VL多模态文档解析方案的产业场景实战营,手把手带您体验基于PaddleOCR-VL的整页文档解析和单个元素识别的强大能力。

回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

链载AI是专业的生成式人工智能教程平台。提供Stable Diffusion、Midjourney AI绘画教程,Suno AI音乐生成指南,以及Runway、Pika等AI视频制作与动画生成实战案例。从提示词编写到参数调整,手把手助您从入门到精通。
  • 官方手机版

  • 微信公众号

  • 商务合作

  • Powered by Discuz! X3.5 | Copyright © 2025-2025. | 链载Ai
  • 桂ICP备2024021734号 | 营业执照 | |广西笔趣文化传媒有限公司|| QQ