返回顶部
热门问答 更多热门问答
技术文章 更多技术文章

如何将任何文本语料库转化为知识图谱

[复制链接]
链载Ai 显示全部楼层 发表于 昨天 17:13 |阅读模式 打印 上一主题 下一主题

ingFang SC", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;font-size: 15px;letter-spacing: 0.1em;">

ingFang SC", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;font-size: 15px;letter-spacing: 0.1em;">

ingFang SC", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;font-size: 1.2em;display: table;border-bottom: 1px solid rgb(248, 57, 41);">什么是知识图谱?

ingFang SC", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;font-size: 15px;letter-spacing: 0.1em;">知识图谱(也称为语义网络)表示现实世界实体的网络——即对象、事件、情境或概念,并展示它们之间的关系。这些信息通常存储在图形数据库中,并以图形结构的形式可视化,因此被称为“知识图谱”。

ingFang SC", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;font-size: 15px;letter-spacing: 0.1em;">来源:IBM - 知识图谱:https://www.ibm.com/topics/knowledge-graph

ingFang SC", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;font-size: 1.2em;display: table;border-bottom: 1px solid rgb(248, 57, 41);">如何从一部作品创建简单的知识图谱?

ingFang SC", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;font-size: 15px;">1.ingFang SC", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;font-size: 15px;font-weight: bold;">清理文本语料库(作品内容)。2.ingFang SC", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;font-size: 15px;font-weight: bold;">从作品中提取概念和实体。3.ingFang SC", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;font-size: 15px;font-weight: bold;">提取实体之间的关系。4.转换为图谱结构。5.填充节点(概念)和边(关系)。6.可视化与查询

第六步是完全可选的,但它具有一定的艺术性。网络图是非常美丽的对象(看看上面的横幅图片,是不是很漂亮?)。幸运的是,有很多 Python 库可以用来生成图形可视化。

为什么选择图谱?

一旦构建了知识图谱(KG),我们可以用它做很多事情。我们可以运行图算法,计算任何节点的中心性,以了解一个概念(节点)在这部作品中的重要性。我们还可以计算社区,将相关概念聚集在一起,以便更好地分析文本。我们可以理解那些看似无关的概念之间的联系。

最重要的是,我们可以实现图检索增强生成(GRAG),通过图谱作为检索器,以更深刻的方式与文本进行交互。这是检索增强生成(RAG)的新版本,在这种方式下,我们使用向量数据库作为检索器与文档进行对话。

这个项目

在这个项目中,我从一个 PDF 文档中创建了一个简单的知识图谱。这个过程与上述步骤中描述的非常相似,但做了一些简化。

首先,我将整个文本拆分成多个文本块。然后,我使用大语言模型(LLM)从每个文本块中提取出概念。请注意,我并没有使用命名实体识别(NER)模型提取实体。概念和实体是不同的。例如,“班加罗尔”是一个实体,而“班加罗尔的宜人天气”是一个概念。根据我的经验,概念比实体能构建出更有意义的知识图谱。

我假设在彼此相邻的文本块中提到的概念是相关的。因此,知识图谱中的每一条边都是一个文本块,其中提到了两个连接的概念。

一旦计算出节点(概念)和边(文本块),就可以使用上述提到的库轻松创建图谱。所有使用的组件都在本地设置,因此这个项目可以非常容易地在个人计算机上运行。我在这里采取了无 GPT 方法,以保持经济性。我使用了出色的Mistral 7B openorca instruct,它完美地解决了这个用例。这个模型可以通过Ollama本地设置,因此生成知识图谱基本是免费的(不需要调用 GPT)。

要生成图谱,你需要调整的笔记本

extract_graph.ipynb[2]

该笔记本实现了下面流程图中描述的方法。

1.拆分语料库
将文本语料库拆分为多个文本块,并为每个文本块分配一个唯一的chunk_id。2.提取概念及其语义关系
对每个文本块,使用大语言模型(LLM)提取其中的概念及其语义关系。为每种关系分配权重W1。同一对概念之间可能有多个关系,每一个关系都对应图中的一条边。3.上下文相关关系
假设在同一文本块中出现的概念是相关的,基于它们的上下文接近性形成的关系也应当计入。为这种关系分配权重W2。注意,同一对概念可能出现在多个文本块中。4.合并和加权
对相似的概念对进行分组,求和它们的权重,并将它们的关系连接起来。现在,任何一对不同的概念之间只有一条边,这条边具有特定的权重,并且其名称是这些关系的合并。5.计算节点的度数和社区
此外,还计算每个节点的度数和节点的社区,用于在图中分别为节点设置大小和颜色。

本地安装

前提条件

•Docker

使用 Docker(推荐方式)

1.克隆仓库:

gitclonehttps://github.com/rahulnyk/knowledge_graph.gitcdknowledge_graph

2.构建项目:

dockerbuild-tknowledge-graph.

3.运行项目:

dockerrun-p8888:8888knowledge-graph

技术栈

Mistral 7B

我使用Mistral 7B Openorca[3]来从文本块中提取概念。它能很好地遵循系统提示指令。

Ollama

Ollama使得在本地托管任何模型变得非常简单。Mistral 7B Openorca版本已经可以通过 Ollama 直接使用。

要设置这个项目,你需要在本地机器上安装 Ollama。

步骤 1:安装 Ollama 访问 https://ollama.ai安装 Ollama。

步骤 2:运行 Ollama 在终端中运行以下命令ollama run zephyr这会将 Zephyr 模型拉取到本地机器并启动 Ollama 服务器。

Pandas

用于图谱架构的 DataFrame(后续阶段可以使用图数据库)。

NetworkX[4]

这是一个 Python 库,使得处理图结构变得非常简单。

Pyvis

Pyvis 是一个用于可视化的Python 库[5]。Pyvis 使用 Python 生成 JavaScript 图形可视化,最终图形可以托管在网页上。例如,GitHub 仓库链接中的图形[6]就是由 Pyvis 生成的图。


回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

链载AI是专业的生成式人工智能教程平台。提供Stable Diffusion、Midjourney AI绘画教程,Suno AI音乐生成指南,以及Runway、Pika等AI视频制作与动画生成实战案例。从提示词编写到参数调整,手把手助您从入门到精通。
  • 官方手机版

  • 微信公众号

  • 商务合作

  • Powered by Discuz! X3.5 | Copyright © 2025-2025. | 链载Ai
  • 桂ICP备2024021734号 | 营业执照 | |广西笔趣文化传媒有限公司|| QQ