链载Ai

标题: AI“落地”系列-RAG前置文档解析 [打印本页]

作者: 链载Ai 时间: 2 小时前
标题: AI“落地”系列-RAG前置文档解析

为何需要对非结构化文档进行解析

RAG（Retrieval-Augmented Generation）时，对非结构化文档进行解析是至关重要的步骤，因为有多种优势。此图是整体的RAG流程，供参考，本文主要讲的是数据准备阶段。

提高检索准确性
**结构化信息提取：非结构化文档解析可以将文档中的文本、表格、图像等信息提取并转换为结构化数据。这使得RAG系统能够更准确地定位和检索相关信息。例如，将PDF文档中的表格数据提取为结构化的表格格式，可以方便地进行查询和分析。
保留文档结构：解析过程中保留文档的结构信息，如标题、段落、列表等，有助于RAG系统更好地理解文档的层次结构，从而提高检索的精度。
增强生成质量

上下文理解：结构化的文档信息为语言模型提供了更丰富的上下文，有助于生成更准确和相关的答案。例如，文档树结构可以清晰地表示文档的层次关系，帮助语言模型更好地理解上下文。
减少幻觉现象：解析准确的文档内容可以减少生成答案时的“幻觉”现象，即生成与原始文档不一致或偏离主题的回答。
提升系统性能

提高召回率：准确的文档解析可以确保在检索阶段能够更全面地召回相关文档部分，提高系统的召回率。
优化排序：解析后的结构化数据可以更方便地进行相关性排序，确保返回的文档片段是最相关的。
支持复杂查询

多部分信息整合：对于需要综合多个部分信息的复杂查询，结构化的文档信息可以更好地识别和整合来自文档不同部分的信息，生成综合的答案。
处理密集非结构化文本：在处理复杂的非结构化文档，如财务报告、法律文件和学术论文时，解析工具如LlamaParse和spRAG可以显著提升处理复杂查询的准确性。

前置文档解析

在Hugging Face中，有多种模型和工具可以用于非结构化文档解析，以下是一些推荐的模型和工具：

1.Unstructured

Unstructured是一个功能强大的Python库，提供了一系列开源组件，用于摄取和预处理各种非结构化文档，如PDF、HTML、Word文档等。其核心目标是将非结构化数据转换为结构化数据，以便后续处理。

Unstructured 会依赖NLTK（自然语言处理工具包），这个可能需要自己手动下载，可以参考

https://zhuanlan.zhihu.com/p/599003991

2.PaperMage

PaperMage是一个专门用于解析PDF文档的工具，特别适用于学术论文。它通过以下步骤进行文档解析：

纯文本提取
使用PDFPlumber提取PDF中的文字部分，得到words集合，并基于words位置关系检测文本行（lines）。
视觉标注
将PDF按页光栅化成位图，通过目标检测技术识别位图中的元素，得到blocks，每个block包括边界框（bounding box，bbox）和标签（如图片、表格等）信息。目标检测模型使用的是efficientdet系列模型：layoutparser/efficientdet。
字符级标注
使用I-VILA系列模型（allenai/ivila-block-layoutlm-finetuned-s2vl-v2）进行字符级标注，将前两步的结果作为输入，预测出每个word的标签。

3.RAGFlow DeepDoc

RAGFlow DeepDoc是一个支持多种文本切片模板的组件，适用于不同的业务场景。它可以帮助将非结构化文档解析为结构化数据，提升信息检索和文本生成的准确性和效率。

4.unstructured-inference

unstructured-inference是一个专注于非结构化数据预处理的Python库，其核心功能包括文档布局解析和光学字符识别（OCR）。它支持多种检测模型，如Detectron2和YOLOX，并可通过API与unstructured包集成。

5.LangChain

LangChain提供了一系列文档加载器，可以用于加载和解析各种格式的非结构化文档，如Word、PDF、Email、图片、Markdown和PPT等。以下是一些常用的加载器：

Word文档解析

from langchain.document_loaders import UnstructuredWordDocumentLoader
loader = UnstructuredWordDocumentLoader("example_data/fake.docx")
data = loader.load()
print(data)

PDF文档解析

基于unstructured库

from langchain.document_loaders import UnstructuredFileLoader
loader = UnstructuredFileLoader("./example_data/layout-parser-paper.pdf", mode="elements")
docs = loader.load()
print(docs[:5])

-**使用PyPDF工具**：

from langchain.document_loaders import PyPDFLoader
loader = PyPDFLoader("example_data/layout-parser-paper.pdf")
pages = loader.load_and_split()

-**在线读取工具**：

from langchain.document_loaders import OnlinePDFLoader
loader = OnlinePDFLoader("https://arxiv.org/pdf/2302.03803.pdf")
data = loader.load()
print(data)

-**使用PDFMiner库**：

from langchain.document_loaders import PDFMinerLoader
loader = PDFMinerLoader("example_data/layout-parser-paper.pdf")
data = loader.load()

Email邮件解析

from langchain.document_loaders import UnstructuredEmailLoader
loader = UnstructuredEmailLoader('example_data/fake-email.eml')
data = loader.load()

图片内容解析

from langchain.document_loaders.image import UnstructuredImageLoader
loader = UnstructuredImageLoader("layout-parser-paper-fast.jpg")
data = loader.load()

Markdown内容解析
基于unstructured库

loader = document_loaders.UnstructuredFileLoader(filepath, mode="elements", autodetect_encoding=True)
docs = loader.load()

PPT内容解析

from langchain.document_loaders import UnstructuredPowerPointLoader
loader = UnstructuredPowerPointLoader("example_data/fake-power-point.pptx")
data = loader.load()

文档解析面临的难点

待后续单独开一篇文章写一下这方面的问题和挑战，敬请期待...

文档解析后的-向量化（Embedding）

Hugging Face提供了多种高质量的Embedding模型，能够将文本转换为向量表示，用于计算文本之间的语义相似度，从而实现精准的信息检索。这些模型可以与Elasticsearch等向量存储系统结合使用，构建高效的检索增强生成（RAG）系统。Hugging Face上对中文比较友好的Embedding模型：

注意：如果下载过程遇到网络不通的问题，可以通过国内镜像https://hf-mirror.com/或者modelscope(https://www.modelscope.cn/models)下载

1.`bert-base-chinese`

特点
这是中文领域非常常用的预训练模型，适用于多种中文自然语言处理任务，如文本分类、情感分析、命名实体识别等。虽然它未专门针对NER等特定任务微调，但可通过进一步微调来适应具体任务。
模型地址
https://huggingface.co/bert-base-chinese

2.`uer/roberta-base-finetuned-cluener2020`

特点
该模型是针对CLUENER2020数据集微调的RoBERTa模型，能够支持识别中文中的人名、地名、时间等实体，适合用于中文命名实体识别任务。
模型地址
https://huggingface.co/uer/roberta-base-finetuned-cluener2020

3.`hfl/chinese-bert-wwm-ext`

特点
这是一个全词掩码预训练的中文BERT模型，适合迁移到命名实体识别等任务，其在中文任务上表现出色。
模型地址
https://huggingface.co/hfl/chinese-bert-wwm-ext

4.`hfl/chinese-roberta-wwm-ext`

特点
类似于hfl/chinese-bert-wwm-ext，也是全词掩码预训练的模型，性能稍高，可用于中文命名实体识别等任务。
模型地址
https://huggingface.co/hfl/chinese-roberta-wwm-ext

5.`WENGSYX/Deberta-Chinese-Large`

特点
基于微软开源的Deberta模型，在中文领域进行预训练，使用了WuDaoCorpora语料库，为中文任务提供了更多的预训练语言模型选择。
模型地址
https://huggingface.co/WENGSYX/Deberta-Chinese-Large

6.`google-bert/bert-base-multilingual-cased`

特点
这是一个多语言版本的BERT模型，支持104种语言，能够从上下文中识别语言并进行相应的推理，适用于多语言任务，包括中文。
模型地址
https://huggingface.co/google-bert/bert-base-multilingual-cased

7.`FacebookAI/xlm-roberta-base`

特点
XLM-RoBERTa模型支持100种语言，可用于多语言任务，包括中文的文本分类、情感分析等。
模型地址
https://huggingface.co/FacebookAI/xlm-roberta-base

这些模型在中文自然语言处理任务中表现出色，可以根据具体任务选择合适的模型进行使用或微调。

欢迎光临链载Ai (https://www.lianzai.com/)