返回顶部
热门问答 更多热门问答
技术文章 更多技术文章

OCR噪声直接命中了RAG的软肋~

[复制链接]
链载Ai 显示全部楼层 发表于 昨天 11:59 |阅读模式 打印 上一主题 下一主题
在RAG系统中,OCR从非结构化的PDF文档的不完美抽取和结构化数据的非统一表示会导致知识库中出现OCR噪声(语义噪声和格式噪声,最终影响RAG系统的性能。
不同级别的语义噪声在纯文本、方程和表格上的示意图,这些都是基于现有的OCR结果进行扰动的。
因此提出并开源OHRBench,评估了当前OCR解决方案在现实世界RAG应用中的适用性:
  • 基于流水线的OCR表现出最佳性能。在所有OCR解决方案中,使用Marker实现了最佳的检索性能,而MinerU在生成和整体评估中占据主导地位。
  • 所有OCR解决方案都遭受了性能下降。即使是最好的解决方案,在整体评估中EM@1下降了1.9,F1@1下降了2.93,而在检索和生成阶段的损失更大。
  • RAG系统中不使用OCR而直接使用视觉-语言模型(VLMs)的潜力
OHRBench是一个评估OCR对RAG系统影响的基准测试,包括从六个真实世界的RAG应用领域中精选的350个非结构化PDF文档,以及从文档中多模态元素派生的问答对。

OHRBench的构建与评估协议。(1) 基准数据集:从六个领域收集PDF文档,提取经过人工验证的地面真实结构化数据,并从多模态文档元素生成问答。(2) RAG知识库:用于基准测试当前OCR解决方案的OCR处理结构化数据,以及用于评估不同OCR噪声类型影响的扰动结构化数据。(3) 评估OCR对每个组件以及整个RAG系统的影响

OHRBench中文档的布局是复杂的,每个数字表示具有该属性的PDF页面数量
用于引导引入语义噪声的真实表格案例之一。左上角是地面真实中的原始表格,右上角是MinerU的OCR结果中的真实示例。左下角和右下角是在以真实示例为指导后对原始表格进行中等和严重扰动的结果。为了更好地展示,手动修改了一些LaTeX代码,以便大部分表格结构能够正常显示。
https://github.com/opendatalab/OHR-BenchOCRHindersRAG:EvaluatingtheCascadingImpactofOCRonRetrieval-AugmentedGenerationhttps://arxiv.org/pdf/2412.02592

回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

链载AI是专业的生成式人工智能教程平台。提供Stable Diffusion、Midjourney AI绘画教程,Suno AI音乐生成指南,以及Runway、Pika等AI视频制作与动画生成实战案例。从提示词编写到参数调整,手把手助您从入门到精通。
  • 官方手机版

  • 微信公众号

  • 商务合作

  • Powered by Discuz! X3.5 | Copyright © 2025-2025. | 链载Ai
  • 桂ICP备2024021734号 | 营业执照 | |广西笔趣文化传媒有限公司|| QQ