引入GraphRAG的场景条件分析

显示全部楼层

在讨论GraphRAG并审阅本文之前，我们想了解一下GraphRAG的概念

利用来自GNN（图神经网络）的图嵌入进行用户查询响应推理，这种方法将图嵌入添加到文本嵌入中。称为软提示，它是一种提示工程形式。
提示工程可以广泛分为硬提示和软提示。硬提示是明确的，其中上下文是手动添加到给定用户查询的。例如，如果用户查询是“我想今天吃面包”，硬提示可能明确概述任务、上下文、人物、示例、格式和语气，需要在六个维度上输入。这种方法是主观的，提示创建者的偏见严重影响其优化。然而，它的简单性具有优势。
相反，软提示是隐含的，通过将现有文本嵌入与其他嵌入信息结合，使模型推断与查询类似的答案。这种方法确保客观性并优化权值，但需要更复杂的模型设计和实施。

什么时候使用GraphRAG

GraphRAG 不是一刀切的解决方案。如果现有的 RAG 运行良好，没有充分的理由就切换到更先进的 GraphRAG 可能不会受到好评。任何系统改进都需要理由来回答为什么有必要。
向量搜索的基本限制。由于检索是基于相似性而不是精确匹配，可能会产生不准确的信息。
改进可能涉及在混合搜索方法中引入 BM25 以进行精确搜索，通过重新排序功能增强排名过程，或进行微调以改善嵌入质量。如果这些努力导致 RAG 的性能改进微乎其微，那么考虑使用 GraphRAG 是明智的。

G-Retriever是如何工作的？

1.索引

本段描述了在GraphRAG中，将数据进行精炼和存储，以便事先方便使用的过程。要在提前使用时使用的信息，指的是图中节点和边的属性中所包含的文本信息。为了将此信息转换为可量化的数值，使用了语言模型。

2.检索

本段讨论了根据数据与用户查询相关性的过程来测量和检索数据。为了评估相关性，语言模型评估了“查询”与图中“节点”和“边”值之间的相似度，利用K最近邻算法进行此目的。

3.子图构建

与其他用于检索文件的RAG（检索增强生成）模型不同，GraphRAG 需要获取与用户查询相关的图形。在初始检索过程中，仅仅将用户文本与图形文本进行比较以获取信息，不能严格利用图形连接的语义。

为了加以利用，有必要评估每个节点和边与用户查询的语义相似度。在这种评估中，使用了PCST（奖励收集斯坦纳树）方法。

简单解释一下 PCST 方法：节点和边都被分配奖励。这些奖励的价值是通过使用节点和边与用户查询之间的排名相似性来确定的，在较早的检索过程中确定。与查询相似的节点将获得更高的奖励，而不相似的节点可能获得较低或甚至为零的值。

总结在相连的节点和边中的奖励，提取出总值较高的节点和边。这个总值代表具有最高总和的节点和边。为了管理子图的大小，使用一个称为“成本”的参数来预先确定要分配给每条边的惩罚，有效控制子图大小。

最终，这个过程提取包含与用户查询类似信息的子图，同时通过成本参数管理子图大小。

4.答案生成

本段描述了通过将文本嵌入值与图表嵌入值相结合来生成查询的答案的过程。在这里，文本嵌入值指的是来自预训练语言学习模型（LLM）的自注意层的值，这些值保持冻结，意味着它们的权重在训练过程中不会更新。

通过利用用于训练的图表嵌入值，它利用了先前提到的软提示技术，该技术涉及提取和更新优化的权重值，以将语义纳入答案产生中。

推导图嵌入值并将其与文本嵌入值结合的方法非常简单：

使用图神经网络（GNN）生成节点嵌入值。
使用汇聚层聚合这些值。
要将汇聚的图嵌入值的维度与文本嵌入值对齐，需要通过多层感知器（MLP）层进行投影。
该过程强调了文本和图嵌入之间的协同作用，以增强生成答案的语义丰富性，充分利用了预先训练模型和基于图的信息的优势。

G-Retrieval 洞见

1.Efficiency Retrieval 效率检索

我认为标准可能会有所不同。在本文中，我们将根据令牌使用量节省多少的基础讨论检索前后的效率。

在RAG（检索增强生成）的关键方面之一是强调在给定的令牌容量内包含最佳信息。当使用G-Retrieval时，观察到了一个显着的效果，令牌数量显著减少，范围从83%到99%。

2. 架构

为了展示 G-Retriever 的有效性，我们在三种不同的架构上进行了比较实验：1. 仅使用预训练权重的架构，2. 同时使用预训练权重和提示工程的架构，3. 利用微调权重和提示工程的架构。每种架构都有其独特的含义。
第一种架构的目标是确定文本图形的重要性。第二种架构旨在通过使用图形编码器和投影来探索软提示的意义。最后，第三种架构致力于独立优化LLM（语言学习模型）权重的重要性。

3. 性能

消融研究的结果也很有趣。特别是，可以观察到与图形相关的部分性能下降了近13%，特别是在没有边检索的情况下。这表明边缘，或者换句话说，语义检索，在 RAG（检索增强生成）框架中发挥着关键作用。

最后，在GraphRAG中我们必须牢记的是

获取图谱非常重要，但整个图谱的设计同样至关重要。在这个思想中，我们仅展示了使用知识图谱的基准数据集进行检索，省略了图表构建背后的故事。

考虑到这一点，我们建议在继续任务的同时保持对节点是如何创建的，边是如何形成的，以及为什么语义以特定方式设置的基本问题。

具有解释的核心概念代码

def retrieval_via_pcst(graph, q_emb, textual_nodes, textual_edges, topk=3, topk_e=3, cost_e=0.5):
c = 0.01
if len(textual_nodes) == 0 or len(textual_edges) == 0:
desc = textual_nodes.to_csv(index=False) + '\n' + textual_edges.to_csv(index=False, columns=['src', 'edge_attr', 'dst'])
graph = Data(x=graph.x, edge_index=graph.edge_index, edge_attr=graph.edge_attr, num_nodes=graph.num_nodes)
return graph, desc

root = -1# unrooted
num_clusters = 1
pruning = 'gw'
verbosity_level = 0
if topk > 0:
n_prizes = torch.nn.CosineSimilarity(dim=-1)(q_emb, graph.x)
topk = min(topk, graph.num_nodes)
_, topk_n_indices = torch.topk(n_prizes, topk, largest=True)

n_prizes = torch.zeros_like(n_prizes)
n_prizes[topk_n_indices] = torch.arange(topk, 0, -1).float()
else:
n_prizes = torch.zeros(graph.num_nodes)

if topk_e > 0:
e_prizes = torch.nn.CosineSimilarity(dim=-1)(q_emb, graph.edge_attr)
topk_e = min(topk_e, e_prizes.unique().size(0))

topk_e_values, _ = torch.topk(e_prizes.unique(), topk_e, largest=True)
e_prizes[e_prizes < topk_e_values[-1]] = 0.0
last_topk_e_value = topk_e
for k in range(topk_e):
indices = e_prizes == topk_e_values[k]
value = min((topk_e-k)/sum(indices), last_topk_e_value-c)
e_prizes[indices] = value
last_topk_e_value = value
# cost_e = max(min(cost_e, e_prizes.max().item()-c), 0)
else:
e_prizes = torch.zeros(graph.num_edges)

costs = []
edges = []
vritual_n_prizes = []
virtual_edges = []
virtual_costs = []
mapping_n = {}
mapping_e = {}
for i, (src, dst) in enumerate(graph.edge_index.T.numpy()):
prize_e = e_prizes[i]
if prize_e <= cost_e:
mapping_e[len(edges)] = i
edges.append((src, dst))
costs.append(cost_e - prize_e)
else:
virtual_node_id = graph.num_nodes + len(vritual_n_prizes)
mapping_n[virtual_node_id] = i
virtual_edges.append((src, virtual_node_id))
virtual_edges.append((virtual_node_id, dst))
virtual_costs.append(0)
virtual_costs.append(0)
vritual_n_prizes.append(prize_e - cost_e)

prizes = np.concatenate([n_prizes, np.array(vritual_n_prizes)])
num_edges = len(edges)
if len(virtual_costs) > 0:
costs = np.array(costs+virtual_costs)
edges = np.array(edges+virtual_edges)

vertices, edges = pcst_fast(edges, prizes, costs, root, num_clusters, pruning, verbosity_level)

selected_nodes = vertices[vertices < graph.num_nodes]
selected_edges = [mapping_e[e] for e in edges if e < num_edges]
virtual_vertices = vertices[vertices >= graph.num_nodes]
if len(virtual_vertices) > 0:
virtual_vertices = vertices[vertices >= graph.num_nodes]
virtual_edges = [mapping_n[i] for i in virtual_vertices]
selected_edges = np.array(selected_edges+virtual_edges)

edge_index = graph.edge_index[:, selected_edges]
selected_nodes = np.unique(np.concatenate([selected_nodes, edge_index[0].numpy(), edge_index[1].numpy()]))

n = textual_nodes.iloc[selected_nodes]
e = textual_edges.iloc[selected_edges]
desc = n.to_csv(index=False)+'\n'+e.to_csv(index=False, columns=['src', 'edge_attr', 'dst'])

mapping = {n: i for i, n in enumerate(selected_nodes.tolist())}

x = graph.x[selected_nodes]
edge_attr = graph.edge_attr[selected_edges]
src = [mapping[i] for i in edge_index[0].tolist()]
dst = [mapping[i] for i in edge_index[1].tolist()]
edge_index = torch.LongTensor([src, dst])
data = Data(x=x, edge_index=edge_index, edge_attr=edge_attr, num_nodes=len(selected_nodes))

return data, desc

** 原始代码资源 :https://github.com/XiaoxinHe/G-Retriever

提供的代码概述了一个函数，旨在根据奖励收集斯坦纳树（PCST）方法执行子图提取。其思想是从给定图中选择一组对特定查询嵌入（`q_emb`）最相关的节点和边。该方法在图表示文本数据且您有兴趣根据语义相似性提取一致且相关的子图的场景中特别有用。Let’s break down the key parts of the function for better understanding:

功能参数:

- `graph`: 提取子图的原始图。预计是一个PyTorch Geometric的`Data`对象。

- `q_emb`: 代表查询语义内容的查询嵌入向量。

- `textual_nodes`，`textual_edges`: 包含关于`graph`节点和边信息的Pandas DataFrames。

- `topk`，`topk_e`: 根据与 `q_emb` 相似性而考虑的顶部节点和边的数量的参数。

- `cost_e`: 包括边的解决方案中的阈值成本。

主要步骤解释:

1. **空图组件提前返回**：如果没有文字节点或边，它会立即返回原始图以及从“textual_nodes”和“textual_edges”派生的描述。

2. **初始化**：为PCST设置变量，包括根节点（在这种情况下未根化），簇数以及修剪方法。

3. **节点和边奖励计算**：

— 使用余弦相似度计算查询嵌入和图组件之间的相似度分数（节点为`n_prizes`，边为`e_prizes`）。

— 调整这些分数以确定包含每个节点或边在子图中的“奖励”。对于边，根据`cost_e`阈值进一步过滤它们。

4. **PCST图转换**：

— 通过可能引入 “虚拟” 节点并根据计算的奖励和成本调整边及其成本，将原始图转换为适合PCST的格式。

5. **PCST算法执行**：

— 在转换后的图上运行PCST算法(`pcst_fast`)，以选择一组节点和边，形成基于给定奖励和成本的最佳子图。

6. **子图重建**：

— 根据PCST算法的输出提取所选节点和边。

— 使用所选组件重建子图，确保生成的子图连通且与查询相关。

7. **子图描述生成**：

— 通过将“textual_nodes”和“textual_edges”的相关部分转换为CSV格式，生成所选子图的文字描述。

8. **返回**：该函数返回重建的子图作为PyTorch Geometric `Data`对象以及其文字描述。

### Annotations for Clarity:

- **奖励计算**：节点和边的奖励来自它们与查询的语义相关性。更高的相似性得分会导致更高的奖励，表明更倾向于将这些组件包含在子图中。

- **虚拟节点和边**：引入以促进PCST算法。它们代表对原始图的结构的潜在修改，以适应奖励和成本模型。虚拟节点充当中介，根据优化过程调整连接性。

- **PCST算法**：函数的核心，`pcst_fast`，是一个外部算法，它接受转换后的带有奖励和成本的图，并识别最佳子图。这一步是实际优化发生的地方。

- **映射和重建**：在识别出最佳组件后，函数将它们映射回原始图的上下文，确保生成的子图准确表示并与查询相关。

这个函数包含了一个基于PCST模型的图优化复杂过程，旨在提取基于语义的相关子图，使其成为诸如文档摘要、信息检索和知识图探索等任务的强大工具。