如何将任何文本语料库转化为知识图谱

显示全部楼层

ingFang SC", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;font-size: 15px;letter-spacing: 0.1em;">

ingFang SC", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;font-size: 1.2em;display: table;border-bottom: 1px solid rgb(248, 57, 41);">什么是知识图谱？

ingFang SC", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;font-size: 15px;letter-spacing: 0.1em;">知识图谱（也称为语义网络）表示现实世界实体的网络——即对象、事件、情境或概念，并展示它们之间的关系。这些信息通常存储在图形数据库中，并以图形结构的形式可视化，因此被称为“知识图谱”。

ingFang SC", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;font-size: 15px;letter-spacing: 0.1em;">来源：IBM - 知识图谱:https://www.ibm.com/topics/knowledge-graph

ingFang SC", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;font-size: 1.2em;display: table;border-bottom: 1px solid rgb(248, 57, 41);">如何从一部作品创建简单的知识图谱？

ingFang SC", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;font-size: 15px;">1.ingFang SC", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;font-size: 15px;font-weight: bold;">清理文本语料库（作品内容）。2.ingFang SC", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;font-size: 15px;font-weight: bold;">从作品中提取概念和实体。3.ingFang SC", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;font-size: 15px;font-weight: bold;">提取实体之间的关系。4.转换为图谱结构。5.填充节点（概念）和边（关系）。6.可视化与查询。

第六步是完全可选的，但它具有一定的艺术性。网络图是非常美丽的对象（看看上面的横幅图片，是不是很漂亮？）。幸运的是，有很多 Python 库可以用来生成图形可视化。

为什么选择图谱？

一旦构建了知识图谱（KG），我们可以用它做很多事情。我们可以运行图算法，计算任何节点的中心性，以了解一个概念（节点）在这部作品中的重要性。我们还可以计算社区，将相关概念聚集在一起，以便更好地分析文本。我们可以理解那些看似无关的概念之间的联系。

最重要的是，我们可以实现图检索增强生成（GRAG），通过图谱作为检索器，以更深刻的方式与文本进行交互。这是检索增强生成（RAG）的新版本，在这种方式下，我们使用向量数据库作为检索器与文档进行对话。

这个项目

在这个项目中，我从一个 PDF 文档中创建了一个简单的知识图谱。这个过程与上述步骤中描述的非常相似，但做了一些简化。

首先，我将整个文本拆分成多个文本块。然后，我使用大语言模型（LLM）从每个文本块中提取出概念。请注意，我并没有使用命名实体识别（NER）模型提取实体。概念和实体是不同的。例如，“班加罗尔”是一个实体，而“班加罗尔的宜人天气”是一个概念。根据我的经验，概念比实体能构建出更有意义的知识图谱。

我假设在彼此相邻的文本块中提到的概念是相关的。因此，知识图谱中的每一条边都是一个文本块，其中提到了两个连接的概念。

一旦计算出节点（概念）和边（文本块），就可以使用上述提到的库轻松创建图谱。所有使用的组件都在本地设置，因此这个项目可以非常容易地在个人计算机上运行。我在这里采取了无 GPT 方法，以保持经济性。我使用了出色的Mistral 7B openorca instruct，它完美地解决了这个用例。这个模型可以通过Ollama本地设置，因此生成知识图谱基本是免费的（不需要调用 GPT）。

要生成图谱，你需要调整的笔记本

extract_graph.ipynb^[2]

该笔记本实现了下面流程图中描述的方法。

1.拆分语料库
将文本语料库拆分为多个文本块，并为每个文本块分配一个唯一的chunk_id。2.提取概念及其语义关系
对每个文本块，使用大语言模型（LLM）提取其中的概念及其语义关系。为每种关系分配权重W1。同一对概念之间可能有多个关系，每一个关系都对应图中的一条边。3.上下文相关关系
假设在同一文本块中出现的概念是相关的，基于它们的上下文接近性形成的关系也应当计入。为这种关系分配权重W2。注意，同一对概念可能出现在多个文本块中。4.合并和加权
对相似的概念对进行分组，求和它们的权重，并将它们的关系连接起来。现在，任何一对不同的概念之间只有一条边，这条边具有特定的权重，并且其名称是这些关系的合并。5.计算节点的度数和社区
此外，还计算每个节点的度数和节点的社区，用于在图中分别为节点设置大小和颜色。

本地安装

前提条件

•Docker

使用 Docker（推荐方式）

1.克隆仓库：

gitclonehttps://github.com/rahulnyk/knowledge_graph.gitcdknowledge_graph

2.构建项目：

dockerbuild-tknowledge-graph.

3.运行项目：

dockerrun-p8888:8888knowledge-graph

技术栈

Mistral 7B

我使用Mistral 7B Openorca^[3]来从文本块中提取概念。它能很好地遵循系统提示指令。

Ollama

Ollama使得在本地托管任何模型变得非常简单。Mistral 7B Openorca版本已经可以通过 Ollama 直接使用。

要设置这个项目，你需要在本地机器上安装 Ollama。

步骤 1：安装 Ollama 访问 https://ollama.ai安装 Ollama。

步骤 2：运行 Ollama 在终端中运行以下命令ollama run zephyr这会将 Zephyr 模型拉取到本地机器并启动 Ollama 服务器。

Pandas

用于图谱架构的 DataFrame（后续阶段可以使用图数据库）。

NetworkX^[4]

这是一个 Python 库，使得处理图结构变得非常简单。

Pyvis

Pyvis 是一个用于可视化的Python 库^[5]。Pyvis 使用 Python 生成 JavaScript 图形可视化，最终图形可以托管在网页上。例如，GitHub 仓库链接中的图形^[6]就是由 Pyvis 生成的图。