之所以注意到相似度召回和重排序的原因是,在多个向量库中进行相似度召回的时候发现,明明在这个向量库中并没有与问题相关的数据,但事实上却召回了一部分数据,并且这部分数据的相似度值比原文档所在的向量库中的值更高。
也就是说,在本应该有问题相关文档的库中召回的数据,还没有其它库中无关数据的相似度高;这就是一个很奇怪的问题,到底是因为文档处理的质量太低,还是因为嵌入的时候有问题。
因此,面对这种情况肯定需要对召回的文档进行重排序,以筛掉无关的数据;因此,在使用rerank模型进行排序时发现,那些其它库中相似度高的数据都被筛掉了,而原本库中相似度低的数据反而留了下来;当然这样才属于正常。
但这个无关数据的相似度更高的问题还是没有被解决;而在相似度召回中,有好几种相识度计算的方式,比如说余弦相似度,内积,欧式距离等多种计算方式。
因此面对不同的业务场景和数据类型,选择合适的相似度计算方式,也能间接增强召回的准确度。
Reranker与embedding模型的区别
尽管Reranker和Embedding模型都用于信息检索系统,它们的定位和功能却是不同的。
Embedding模型主要用于初步筛选文档。它将文本转换为向量表示,并计算这些向量之间的相似度,从而筛选出一组可能相关的候选文档。Embedding模型的优势在于它的计算效率高,适合处理大规模数据集。
Reranker则用于对Embedding模型筛选出的候选文档进行精细排序。Reranker通常基于复杂的深度神经网络,能够更好地理解文本的上下文和细微差异,从而提供更高的排序精度。
简单来说,Embedding模型负责“找出一批可能相关的候选文档”,而Reranker负责“在这些候选文档中找出最相关的,并将它们按相关性排序”。
Reranker能否直接用于检索?
理论上,Reranker可以直接用于检索,但在实际应用中并不常见。这是因为Reranker的计算复杂度较高,直接使用它对整个数据集进行排序会导致极高的计算成本,难以满足实时性要求。因此,通常我们会先用Embedding模型进行初步筛选,将文档集合缩小到一个合理的范围,然后再使用Reranker进行精细排序。
ingFang SC", "Microsoft YaHei", SimHei, Arial, SimSun;font-size: 20px;color: rgb(79, 79, 79);line-height: 28px;font-synthesis-style: auto;overflow-wrap: break-word;font-style: normal;font-variant-ligatures: no-common-ligatures;font-variant-caps: normal;letter-spacing: normal;orphans: 2;text-align: start;text-indent: 0px;text-transform: none;widows: 2;word-spacing: 0px;-webkit-text-stroke-width: 0px;white-space: normal;background-color: rgb(255, 255, 255);text-decoration-thickness: initial;text-decoration-style: initial;text-decoration-color: initial;">总结ingFang SC", "Microsoft YaHei", SimHei, Arial, SimSun;font-size: 20px;color: rgb(79, 79, 79);line-height: 28px;font-synthesis-style: auto;overflow-wrap: break-word;font-style: normal;font-variant-ligatures: no-common-ligatures;font-variant-caps: normal;letter-spacing: normal;orphans: 2;text-align: start;text-indent: 0px;text-transform: none;widows: 2;word-spacing: 0px;-webkit-text-stroke-width: 0px;white-space: normal;background-color: rgb(255, 255, 255);text-decoration-thickness: initial;text-decoration-style: initial;text-decoration-color: initial;">
ingFang SC", "Hiragino Sans GB", "Microsoft YaHei", "WenQuanYi Micro Hei", sans-serif;font-style: normal;font-variant-ligatures: no-common-ligatures;font-variant-caps: normal;letter-spacing: normal;orphans: 2;text-align: start;text-indent: 0px;text-transform: none;widows: 2;word-spacing: 0px;-webkit-text-stroke-width: 0px;white-space: normal;background-color: rgb(255, 255, 255);text-decoration-thickness: initial;text-decoration-style: initial;text-decoration-color: initial;">结合Embedding模型和Reranker的优势,实现了效率和准确性的平衡。Embedding模型负责快速筛选候选文档,而Reranker则通过更细致的分析对这些文档进行精准排序,虽然其计算开销较高,但它在提升排序准确性方面的作用不可忽视。