链载Ai

标题: 你的RAG混合搜索效果不好？别着急上Reranking,先把RRF算法的K=60改了试试。 [打印本页]

作者: 链载Ai 时间: 12 小时前
标题: 你的RAG混合搜索效果不好？别着急上Reranking,先把RRF算法的K=60改了试试。

ingFang SC", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;background-color: rgb(255, 255, 255);visibility: visible;">ingFang SC", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;letter-spacing: 0.544px;text-align: left;visibility: visible !important;width: 20px !important;"/>1、RAG的两级搜索架构

检索增强生成（RAG）的检索部分，通常采用两级架构：检索-Retrieval（L1）和排序-Ranking（L2）。这种架构不仅需要快速从大规模非结构化数据集中找到相关信息，还需要确保最相关的内容被后续过程优先处理。

第一级：检索（L1）检索层的主要目标是快速从索引中找出所有满足搜索条件的文档。这一步会对结果进行初步评分，并选取有限数量（比如前50）最相关的结果传递给下一层或直接返回给用户。

在L1层，有三种常用的搜索模式：

关键词搜索：又称全文搜索。它将内容分解为词项，创建倒排索引以实现快速检索，并使用BM25概率模型进行评分。
向量搜索：将文档从文本转换为向量表示。搜索时，系统生成查询的向量嵌入，然后找出与查询向量最接近的文档向量。
混合搜索：同时执行关键词和向量检索，然后合并不同搜索结果的得分序列，生成最优的结果序列。常用的算法是2009年加拿大滑铁卢大学两位学者与google工程师提出的RRF算法-使用倒数排名融合生成单一结果集的方法。

第二级：排序（L2）排序层接续处理L1的返回结果集，使用专门训练的深度学习模型做语义相关度排序，重新输出排序结果。L2只能重新排序L1已经找到的内容——如果L1的结果集中没有包含正确的结果，L2将毫无用处。

对于L2和L1层，关键词搜索和向量搜索，都是关键基础。

在RAG系统中，关键词搜索和向量搜索各有其优势和局限性。了解这两种方法的"能与不能"对于构建高效的RAG检索系统至关重要。

在实际RAG系统的开发中，现实通常是各种情况都有，难以使用一种搜索方法解决全部问题。用户的查询可能涵盖广泛的类型，从精确的关键词匹配到抽象的概念探索，再到专业领域的术语搜索。同时，知识库中的数据也可能是多样化的，包含结构化和非结构化信息、数字数据、专有名词等。面对这些复杂的需求，仅依赖向量搜索或全文搜索中的一种往往会导致检索结果的不准确。这就是为什么在现代RAG系统中，混合搜索方法变得越来越重要的原因。

混合搜索是一种将多种搜索算法结果进行融合，使得最终结果优于单独使用任何一种搜索算法的方法。这种方法的"魔法"在于它能够有效地平衡不同搜索算法在不同场景的性能差异，从而在各种复杂的搜索场景中提供质量更优的结果。

混合搜索的工作原理：

并行执行：

对每个查询，系统同时执行向量搜索和全文搜索。
向量搜索捕捉查询的语义内容。
全文搜索处理关键词匹配和精确查找。

结果融合：

使用特定算法将两种搜索的结果合并成一个统一的结果集。
最常用的方法之一是倒数排名融合（Reciprocal Rank Fusion，RRF）算法。

RRF算法：

RRF的核心思想是根据每个文档在不同搜索结果中的排名来计算一个综合得分。
公式：

k是一个常数，在原始论文中，作者推荐值是60；rank是文档在每个搜索结果中的排序值。

在企业大语言模型知识库应用中，有很大一部分场景是从特定文档中提取信息，这类场景多属于关键词查询类型。在实际开发和使用过程中，我们会发现，这类场景，使用关键词搜索（全文搜索）的效果较好，而向量搜索效果较差，随之而来，混合搜索的结果也不理想。微软的研究人员总结了不同查询类型使用不同搜索技术的性能得分见下表，

微软在这篇文章中建议使用重排序，以提升混合搜索的性能，但我们认为，只需要在混合搜索中增加权重参数就可以解决这个问题，并不需要使用reranking。经过实际项目场景的检验，这种办法是有效的。

最简单实现权重平衡的办法，可以通过直接调整经典RRF公式中的k值来实现。在经典RRF公式中，K为常数，建议设为60。实际这个K是可调的，通过调整k值，我们可以有效地改变关键词搜索和向量搜索的相对重要性权重，从而使RRF算法获得更好的性能。

我们以工程材料表中查询某个型号电缆技术规格为例：

例子：查询"YJLV22-3×120+2×60 电缆技术参数"

初始设置：假设我们开始时设置 k = 60（这是常用的默认值）
观察结果：我们会发现，使用相同的k值，向量搜索可能会返回一些相关但不够精确的结果，如其他型号的电缆规格。而关键词搜索可能更准确地找到了具体型号的信息。
调整k值：为了提高关键词搜索的权重，我们尝试降低k_关键词的值。例如：k_关键词 = 30，k_向量保持不变。
实际效果：调整后，在混合搜索返回的结果集中，"YJLV22-3×120+2×60"的参数信息排到了比之前更靠前的位置。"YJLV22-3×120+2×60"型号电缆的具体技术规格是：

额定电压：0.6/1kV
导体材料：铜
绝缘材料：交联聚乙烯
护套材料：聚氯乙烯
铠装类型：钢带铠装

通过这种方法，可以在不增加系统复杂度和资源开销的情况下，有效提升混合搜索在特定查询场景（如工程材料规格查询）中的表现。

直接修改k值是对RRF公式增加权重平衡的最简单方法，易于实施和调整，适合快速优化和实验。2023年5月，来自向量数据库初创企业Pinecone和伯克利的研究人员共同发表了论文，提出了一种新的混合搜索算法，称为TM2C2（Theoretical Min-Max Convex Combination），论文中，我们看到TM2c2算法有如下几个优势：

稳定性：相比传统的 min-max 归一化，TM2C2 更稳定。
性能：在大多数数据集上，TM2C2 优于 RRF 和其他基线方法。
可解释性：α 参数直观地表示了语义搜索和关键词搜索的相对重要性。
样本效率：只需要很少的训练样本就能调整到较好的性能。

我们可以发现，TM2c2算法实际上是RRF引入权重参数和归一函数后的变体。这一变化为特定场景下，混合搜索的性能提升提供了更多的可能性。后续我们会用这种算法做些实验，期待会有更好的效果。

欢迎光临链载Ai (https://www.lianzai.com/)