OCR噪声直接命中了RAG的软肋~

显示全部楼层

在RAG系统中，OCR从非结构化的PDF文档的不完美抽取和结构化数据的非统一表示会导致知识库中出现OCR噪声（语义噪声和格式噪声），最终影响RAG系统的性能。

不同级别的语义噪声在纯文本、方程和表格上的示意图，这些都是基于现有的OCR结果进行扰动的。

因此提出并开源OHRBench，评估了当前OCR解决方案在现实世界RAG应用中的适用性：

基于流水线的OCR表现出最佳性能。在所有OCR解决方案中，使用Marker实现了最佳的检索性能，而MinerU在生成和整体评估中占据主导地位。
所有OCR解决方案都遭受了性能下降。即使是最好的解决方案，在整体评估中EM@1下降了1.9，F1@1下降了2.93，而在检索和生成阶段的损失更大。
RAG系统中不使用OCR而直接使用视觉-语言模型（VLMs）的潜力。

OHRBench是一个评估OCR对RAG系统影响的基准测试，包括从六个真实世界的RAG应用领域中精选的350个非结构化PDF文档，以及从文档中多模态元素派生的问答对。

OHRBench的构建与评估协议。(1) 基准数据集：从六个领域收集PDF文档，提取经过人工验证的地面真实结构化数据，并从多模态文档元素生成问答。(2) RAG知识库：用于基准测试当前OCR解决方案的OCR处理结构化数据，以及用于评估不同OCR噪声类型影响的扰动结构化数据。(3) 评估OCR对每个组件以及整个RAG系统的影响。

OHRBench中文档的布局是复杂的，每个数字表示具有该属性的PDF页面数量

用于引导引入语义噪声的真实表格案例之一。左上角是地面真实中的原始表格，右上角是MinerU的OCR结果中的真实示例。左下角和右下角是在以真实示例为指导后对原始表格进行中等和严重扰动的结果。为了更好地展示，手动修改了一些LaTeX代码，以便大部分表格结构能够正常显示。

https://github.com/opendatalab/OHR-BenchOCRHindersRAG:EvaluatingtheCascadingImpactofOCRonRetrieval-AugmentedGenerationhttps://arxiv.org/pdf/2412.02592