链载Ai

标题: 聊聊文档解析测评工具中表格指标 [打印本页]

作者: 链载Ai    时间: 11 小时前
标题: 聊聊文档解析测评工具中表格指标


文档解析测评工具中表格指标的意义

关注TechLead,复旦AI博士,分享AI领域全维度知识与研究。拥有10+年AI领域研究经验、复旦机器人智能实验室成员,国家级大学生赛事评审专家,发表多篇SCI核心期刊学术论文,上亿营收AI产品研发负责人。

TextIn发布了文档解析测评工具,https://github.com/intsig/markdown_tester ,定量测评文档解析还原的效果。

本文来解析其中的表格指标部分。

表格解析的重点

为何表格是解析任务中的重点?

在语料源头,含表格的文档相当普遍。论文、年报、财报、行业报告、法律文件及企业文档等文件类型中,表格往往包含重要且精密的数据或信息。表格解析在知识库搭建及RAG(Retrieval-Augmented Generation)系统建设等应用场景中至关重要。

表格解析对RAG系统性能提升的贡献

  1. 信息召回的精度与准确性:表格数据包含丰富的结构化信息(如日期、金额),通过高效的表格解析技术,可以将这些信息以易于处理的格式呈现,提升信息召回率和准确性。

  2. 处理复杂文档的能力:专业文档中往往包含复杂表格及视觉元素,表格解析能力有助于RAG系统处理这些复杂结构,提供深入内容分析。

  3. 增强上下文理解,改善答案生成质量:如在财务报告中,表格数据与文本描述相结合,可提供全面的业务洞察,并生成准确、相关及全面的回答。

算法开发对表格解析的关注

表格多样性和复杂性的问题:表格样式的复杂多变,包含无线表、合并单元格、跨页表格、超密集表格、不规则表单及单元格内多行文字的还原等,增加了解析难度。扫描模糊或倾斜、手写内容等因素进一步提高了解析的复杂性。

优秀表格解析效果的标准

直接观感

  1. 单元格内容识别准确。

  2. 表格整体无错行、漏行、错误合并或拆分。

定量计算标准

在表格解析评估中,如果解析引擎提供的表格结构与实际结构完全一致,则表格结构树状编辑距离为0,即得满分100。该指标得分越高,意味着表格结构还原度越好,错误如错行、漏行或合并单元格问题越少。

表格树状编辑距离的定义如下:所有表格树编辑距离分数之和(包含文字)除以总表格数量。该指标结合了文本全对率与结构准确度,整合了测评表格解析结果的准确程度。

案例分析

通过几个案例,直观感受表格解析效果。 下图中,表格数据未能解析为各列一一对应的格式。如果大模型获得这样的解析结果,必然无法在此基础上提取准确的参数信息,无法建立正确的分析或回答。

对比来看,正确解析的表格在无框线、合并单元格的情况下,准确还原文本内容及各单元格结构关系,为RAG系统提供高质量的信息基础。






欢迎光临 链载Ai (https://www.lianzai.com/) Powered by Discuz! X3.5