链载Ai

标题: 从RAG到GraphRAG: 用知识图谱帮助RAG链接数据 — 海外GenAI公司Chanko实践 [打印本页]

作者: 链载Ai    时间: 2025-12-2 10:05
标题: 从RAG到GraphRAG: 用知识图谱帮助RAG链接数据 — 海外GenAI公司Chanko实践

没有知识就没有智能。尽管大型语言模型(LLM)具有惊人的能力,但它们仍然在缺乏领域知识方面存在显着困难,这可能导致它们生成过时、不完整或不准确的回答。这个缺点成为企业在采用领域特定的LLM时面临的最大挑战之一,因为它直接影响这些模型在实际业务场景中的效力和可靠性。

RAG


为了克服这一挑战,“检索增强生成”(Retrieval-Augmented Generation, RAG) 已成为提供领域知识给LLMs最流行的解决方案。使用RAG,我们从外部知识库中检索相关信息,并通过提示语的上下文窗口将其提供给LLM。例如,如果我们想询问雇主的假期政策,我们可以使用RAG从数据库中检索相关的人力资源政策文件,并将该信息作为上下文提供给LLM。


这个RAG工作流程是我喜欢称之为:概念上简单但实际上困难。

实施RAG的实际挑战通常体现在数据处理、选择和整合的细微之处。为了能够有效地检索和利用正确的信息,系统必须精确地浏览大量的数据源,理解每一条数据的上下文和相关性。

向量数据库


RAG显著增强了LLM的性能,但它在数据的复杂管理和检索方面依赖非常重。这就是向量数据库发挥作用的地方。

向量数据库通过向量相似性搜索,索引和存储向量嵌入以实现快速信息检索。这些嵌入由LLM等AI模型生成,并携带丰富的语义信息,可以通过向量数据库进行查询。通常,该过程涉及将用户的问题转化为嵌入,然后使用向量搜索将其与文档文本块嵌入进行匹配。根据高的向量相似性分数(如余弦相似度),检索到最相关的文本块。

以我们之前的例子为例,问题“假期政策是否有变化?”可以转化为一个查询嵌入。然后我们对人力资源政策文档嵌入进行向量相似性搜索,以确定与假期政策相关的文档。


尽管使用向量数据库的关系图(RAG)是为LLM提供领域知识的基准,但仍然面临一些严峻挑战,这些挑战对其整体有效性产生影响。实践中最常见的挑战包括:

除了这些常见的挑战之外,还有另一个微妙而深远的问题常常被忽视:向量相似性不满足传递性。

向量相似性不具有传递性

在向量空间中:


缺乏传递性对于我们如何解释和回应AI系统中的查询具有重要影响。当用户的查询以向量A表示,并寻求与向量C对齐的信息时,由于中间向量B,直接的相似性可能不会立即显现。实质上,A与C的联系是间接的,通过它与B的相似性来介导。

这意味着查询向量与相关文档向量之间的直接连接可能会被忽略,从而可能导致检索到的信息的缺失或不准确。理解和解决这一差距,是开发更有效和细致的以AI驱动的搜索和检索系统的机会。

为了说明这一概念,考虑一个移动网络提供商的客户支持场景:


为了展示向量相似性的非传递性,我们使用“gte-large”嵌入模型为问题A、文档B和文档C生成向量嵌入。然后,我们计算每对向量的余弦相似度。下表显示了这些分数,从数量的角度分析了向量A、B和C之间的关系。


这个例子突显了准确地将用户查询映射到最相关信息的复杂性。在开发人工智能系统时,尤其是用于客户支持的系统,不仅需要考虑直接的相似性,还需要考虑更广泛的上下文以及信息对用户的最终效用。考虑到这些细微之处的先进算法和方法对于提高这些系统的性能和可靠性至关重要。

在这其中存在一个问题:如何使人工智能系统能够有效地发现和绘制这些微妙的连接,使它们能够连接不同的知识点并提供全面的、有上下文的丰富答案?

引入知识向量图谱:在向量空间中连接数据点


在 Chanko,我们正在构建一种全新的RAG架构,将向量数据库与图形数据库相结合,以协调获得两者的最佳优势:向量搜索和图遍历。我们将这种架构称为知识向量图。


想象把您的业务文件中的所有信息片段作为节点存储在一个图形中,通过连接节点的边来表示它们之间的关系。现在,当用户提出问题时,我们可以进行一个两阶段的“向量图”搜索操作:

总体上说,这是我们为了向人工智能提供完整领域知识的解决方案,帮助人工智能连接不同的知识点,以提供最有用的答案。

这个思路在概念上很简单,但实际上很困难。在Chanko,我们正在构建一个平台,使企业客户能够轻松实现这一点。我们使用专有的生成式人工智能来创建您业务数据的知识向量图表示,利用我们的智能文本分块、关系提取和语义增强来处理繁琐的细节。

总结


在AI对领域知识追求的探索中,我们从大型语言模型(LLM)的挑战到检索增强生成(RAG)和向量数据库提供的创新解决方案经历了复杂的路径。这一旅程将我们带到了一种新的RAG方法,即知识向量图谱。通过将向量搜索与图遍历无缝集成,我们正处于释放AI全面潜力以理解、连接和利用广阔知识领域的前沿。AI的未来不仅仅是信息的处理,而是将其编织成一幅相互连接的理解图谱,可以改变企业运营和决策的方式。知识向量图谱是我们朝着这个未来迈出的一步。






欢迎光临 链载Ai (http://www.lianzai.com/) Powered by Discuz! X3.5