链载Ai

标题: 多模态文档检索开源方案-三大竞赛获奖方案技术链路 [打印本页]

作者: 链载Ai    时间: 昨天 20:51
标题: 多模态文档检索开源方案-三大竞赛获奖方案技术链路

前期也提到,在实际场景中,用户通常需要检索多模态文档,包括文本、图像、表格和图表。这需要一个更复杂的检索系统,能够处理多模态信息,并根据用户查询提供相关文档或段落。检索多模态文档将有助于 AI 聊天机器人、搜索引擎和其他应用程序向用户提供更准确、更相关的信息。因此衍生了一系列的多模态RAG方案,如:开源多模态RAG的视觉文档(OCR-Free)检索增强生成方案-VDocRAG、多模态GraphRAG初探:文档智能+知识图谱+大模型结合范式提到的诸多方案。

下面来看看www会议开设的多模态文档检索挑战赛的三个获奖方案。

概述:多模态文档检索任务专注于对多模态文档或网页中的段落进行建模,利用文本和多模态信息进行嵌入建模。最终目标是根据用户的文本或多模态查询检索相关的多模态文档或段落。

任务一:MMDocIR – 长文档的多模态检索

此任务旨在评估检索系统识别文档中视觉丰富的信息的能力。MMDocIR 评估集包含 313 篇长文档,平均篇幅 65.1 页,涵盖多个领域:研究报告、行政管理、行业、教程、研讨会、学术论文、宣传册、财务报告、指南、政府文件、法律和新闻文章。不同领域的多模态信息分布各异。

每个领域都呈现出独特的多模态信息分布,带来了不同的检索挑战。

目标:对于给定的文本查询 → 检索相关文档页面: 识别文档中与用户查询最相关的页面。每个查询的检索范围仅限于给定文档中的所有页面。

数据集:MMDocIR

任务 2:M2KR – 开放域视觉检索基准

此任务评估检索系统在开放域场景(包括维基百科网页)中检索视觉丰富的信息的能力。它涉及多种主题、形式(图形、表格、文本)和语言。原始 M2KR 数据集仅包含从维基百科页面中提取的文本。我们扩展了数据集,以包含维基百科页面的屏幕截图。

子任务:

图片→Wiki文档检索: 数据集: WIT、KVQA。 图片+文字→Wiki文档检索: 数据集: OVEN、OKVQA、Infoseek、E-VQA。

Rank1

code:https://github.com/hbhalpha/MDR

流程图
  1. 首先使用cv_tools/DINO识别视觉关键点






欢迎光临 链载Ai (https://www.lianzai.com/) Powered by Discuz! X3.5