本架构图描述了从 PDF 输入到生成图模型和向量模型的自动化流程,重点包括:
• PDF 类型检测与文本提取
• 行业分类与内容分析
• 动态创建图模型和向量模型
• 存储到图数据库和向量数据库
•输入:PDF 文件(如ingFang SC", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;font-feature-settings: normal;font-variation-settings: normal;font-size: 12.6px;line-height: 1.75;color: rgb(221, 17, 68);background: rgba(27, 31, 35, 0.05);padding: 3px 5px;border-radius: 4px;">your_document.pdf)
•前 1-10 页提取:
• 使用ingFang SC", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;font-feature-settings: normal;font-variation-settings: normal;font-size: 12.6px;line-height: 1.75;color: rgb(221, 17, 68);background: rgba(27, 31, 35, 0.05);padding: 3px 5px;border-radius: 4px;">PyMuPDF提取文本型 PDF 内容
• 使用ingFang SC", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;font-feature-settings: normal;font-variation-settings: normal;font-size: 12.6px;line-height: 1.75;color: rgb(221, 17, 68);background: rgba(27, 31, 35, 0.05);padding: 3px 5px;border-radius: 4px;">pytesseract+ingFang SC", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;font-feature-settings: normal;font-variation-settings: normal;font-size: 12.6px;line-height: 1.75;color: rgb(221, 17, 68);background: rgba(27, 31, 35, 0.05);padding: 3px 5px;border-radius: 4px;">pdf2image提取扫描型 PDF 内容
•工具:
•ingFang SC", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;font-feature-settings: normal;font-variation-settings: normal;font-size: 12.6px;line-height: 1.75;color: rgb(221, 17, 68);background: rgba(27, 31, 35, 0.05);padding: 3px 5px;border-radius: 4px;">PyMuPDF:处理文本型 PDF
•ingFang SC", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;font-feature-settings: normal;font-variation-settings: normal;font-size: 12.6px;line-height: 1.75;color: rgb(221, 17, 68);background: rgba(27, 31, 35, 0.05);padding: 3px 5px;border-radius: 4px;">pytesseract:处理扫描型 PDF
•输出:前 1-10 页的原始文本
•工具:
• 关键词匹配(正则表达式)
• NLP 模型(如 spaCy)或 LLM(Grok 3)进行分类
•行业分类规则:
• 医疗:关键词如“疾病”、“治疗”、“药物”
• 法律:关键词如“法律”、“合同”、“条款”
• 技术:关键词如“技术”、“算法”、“系统”
•输出:行业标签(如“医疗”)和结构化数据(JSON/Markdown)
根据行业选择合适的工具和模型,动态创建图模型和向量模型。
•医疗行业图模型:
• 节点:ingFang SC", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;font-feature-settings: normal;font-variation-settings: normal;font-size: 12.6px;line-height: 1.75;color: rgb(221, 17, 68);background: rgba(27, 31, 35, 0.05);padding: 3px 5px;border-radius: 4px;">Chapter、ingFang SC", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;font-feature-settings: normal;font-variation-settings: normal;font-size: 12.6px;line-height: 1.75;color: rgb(221, 17, 68);background: rgba(27, 31, 35, 0.05);padding: 3px 5px;border-radius: 4px;">Section、ingFang SC", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;font-feature-settings: normal;font-variation-settings: normal;font-size: 12.6px;line-height: 1.75;color: rgb(221, 17, 68);background: rgba(27, 31, 35, 0.05);padding: 3px 5px;border-radius: 4px;">Disease、ingFang SC", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;font-feature-settings: normal;font-variation-settings: normal;font-size: 12.6px;line-height: 1.75;color: rgb(221, 17, 68);background: rgba(27, 31, 35, 0.05);padding: 3px 5px;border-radius: 4px;">Treatment
• 关系:CONTAINS、TREATS
•法律行业图模型:
• 节点:Clause、Party、Contract
• 关系:BELONGS_TO、SIGNATORY
•技术行业图模型:
• 节点:Section、Technology、Process
• 关系:DEPENDS_ON、IMPLEMENTS
•工具:Neo4j 驱动程序
•嵌入模型选择:
• 医疗:paraphrase-multilingual-MiniLM-L12-v2或 BioBERT
• 法律:LegalBERT
• 技术:all-MiniLM-L6-v2或 TechBERT
•工具:Sentence Transformers、Pinecone
Neo4j存储图数据库Pinecone存储向量数据库
•图数据库:Neo4j(存储实体和关系)
•向量数据库:Pinecone(存储向量和元数据)
基于你的 PDF 示例(“第 1 章 呼吸系统疾病用药”):
• PDF 文件:your_document.pdf
• 提取前 1-10 页文本(使用PyMuPDF,文本型 PDF)
• 文本示例:
第1章呼吸系统疾病用药
1.1急性上呼吸道感染
1.疾病概述
急性支气管炎,治疗方法:吸入激素,具有抗炎作用。• 关键词:“疾病”、“治疗”、“药物” → 行业分类为“医疗”
•图模型:
• 节点:Chapter(第 1 章)、Section(1.1 急性上呼吸道感染)、Disease(急性支气管炎)、Treatment(吸入激素)
• 关系:CONTAINS(章节包含小节)、TREATS(疾病关联治疗)
•向量模型:
• 嵌入模型:paraphrase-multilingual-MiniLM-L12-v2
• 向量化文本:每个章节、疾病、治疗生成向量
• 图数据库:Neo4j 存储图模型
• 向量数据库:Pinecone 存储向量
•Python 库:
•PyMuPDF:文本提取
•pytesseract+pdf2image:OCR
•sentence-transformers:向量化
•neo4j:图数据库
•pinecone-client:向量数据库
•spaCy或Hugging Face Transformers:NLP 分析
•外部服务:
• Grok 3(或类似 LLM):行业分类与结构化
• Neo4j、Pinecone API
•性能优化:对大规模 PDF 使用并行处理
•错误处理:OCR 噪声清洗、结构化错误检测
•可扩展性:为新行业添加分类规则
•隐私保护:敏感数据加密存储
| 欢迎光临 链载Ai (https://www.lianzai.com/) | Powered by Discuz! X3.5 |