链载Ai

标题: Docs2KG:基于大模型的非结构化异构文档统一知识图谱自动构建 [打印本页]

作者: 链载Ai    时间: 昨天 10:21
标题: Docs2KG:基于大模型的非结构化异构文档统一知识图谱自动构建
目前市场上的一些工具专注于检索增强生成 (RAG) 流程或如何让大型语言模型 (LLM) 在本地运行。更广泛的社区包括个人用户、小型企业,甚至大型企业。其中一些人可能已经开发了知识库,这些数据都是非结构化的,并且分布在不同的地方。

通过结合PDF文件和Excel文件,演示查询“显示所有与2011年和2021年发生的事件相关的文档及其组成部分。” PDF文件包含2011年至2021年香港的人口规模和结构信息。Excel文件包含2021年至2023年的人口普查记录。(青色表示PDF文档;绿色用于Excel文件红色为PDF页面;卡其色为标题;海洋蓝为段落

鉴于非结构化和异构数据的性质,信息提取和知识表示带来了重大挑战。因此提出了Docs2KG,这是一个新颖的框架,旨在从多种异构非结构化数据源(包括电子邮件、网页、PDF文件和Excel文件)中提取多模态信息。Docs2KG 动态生成表示提取信息的统一知识图谱,从而实现高效的数据查询和探索。与专注于特定数据源或预先设计的模式的现有方法不同,Docs2KG提供了一种灵活且可扩展的解决方案,可以适应各种文档结构和内容类型。所提出的框架不仅简化了数据处理,而且还提高了跨不同领域的模型的可解释性。
Docs2KG总体架构
双路数据处理会处理来自多个来源的数据。有些数据,例如导出的PDF文件、Excel文件等,可以通过编程解析器进行处理。所以一般会先转换成markdown,然后再转换成统一知识图谱。对于扫描的PDF、图片等数据,需要借助文档布局分析和OCR来提取信息,然后将提取的信息转换成markdown,然后根据输出生成统一的多模态知识图谱。
Docs2KG实施的系统架构

总体步骤包括:

https://arxiv.org/pdf/2406.02962Docs2KG:UnifiedKnowledgeGraphConstructionfromHeterogeneousDocumentsAssistedbyLargeLanguageModelspipinstallDocs2KGhttps://docs2kg.ai4wa.com/






欢迎光临 链载Ai (https://www.lianzai.com/) Powered by Discuz! X3.5