链载Ai

标题: 提升 RAG 效能:使用最佳的嵌入与重排模型 [打印本页]

作者: 链载Ai    时间: 2 小时前
标题: 提升 RAG 效能:使用最佳的嵌入与重排模型

提升 RAG 效能:如何挑选最佳的嵌入与重排模型 [译]

在打造检索增强型生成(RAG)系统时,检索器扮演着至关重要的角色。市场上有丰富的嵌入模型可供选择,诸如 OpenAI、CohereAI 和开源的句子转换器。同时,也有来自 CohereAI 和句子转换器的多种重新排列工具。

但是,在这么多选择面前,我们该如何挑选出最佳组合,以达到最优的检索效能?我们该怎样判断哪种嵌入模型最契合我们的数据?或者哪一种重新排列工具能够最大限度地优化我们的成果?

本篇博客,我们将借助 LlamaIndex 的Retrieval Evaluation工具,迅速识别出最合适的嵌入和重排模型组合。现在,让我们开始探索!

首先,我们来认识一下Retrieval Evaluation中的度量标准。

理解检索评估的度量标准:

要评定我们检索系统的效果,我们主要使用两个公认的标准:命中率(Hit Rate)平均倒数排名(MRR)。现在,让我们深入了解它们各自的意义和工作原理。

命中率:

命中率衡量的是在最初检索到的文档中找到正确答案的查询所占的比例。通俗来说,就是我们的系统在前几次尝试中得到正确答案的概率。

平均倒数排名(MRR):

MRR 考察每个查询中,系统找到相关文档的准确性,通过排名来评估。具体而言,就是所有查询中正确答案排名的倒数的平均值。例如,如果第一个相关文档就是搜索结果的第一位,那么倒数排名就是 1;如果是第二位,倒数排名就是 1/2,以此类推。

掌握了这些标准和度量方式后,我们可以正式开始实验了。如果你想跟着做,也可以通过我们的Google Colab 笔记本[1]实现同步操作。

配置实验环境

!pipinstallllama-indexsentence-transformerscohereanthropicvoyageaiprotobufpypdf

创建密钥

openai_api_key='YOUROPENAIAPIKEY'
cohere_api_key='YOURCOHEREAIAPIKEY'
anthropic_api_key='YOURANTHROPICAPIKEY'
openai.api_key=openai_api_key

下载实验数据

本次实验我们将使用 Llama2 论文作为研究对象。接下来,我们来下载这篇论文。

!wget--user-agent"Mozilla""https://arxiv.org/pdf/2307.09288.pdf"-O"llama2.pdf"

载入实验数据

现在,我们来加载实验所需的数据。实验将使用论文的前 36 页内容,不包括目录、参考资料和附录部分。

接着,我们将这些内容解析并分割成节点,这些节点代表了我们希望能检索到的数据块。这里,我们设置的数据块大小为 512。

documents=SimpleDirectoryReader(input_files=["llama2.pdf"]).load_data()


node_parser=SimpleNodeParser.from_defaults(chunk_size=512)
nodes=node_parser.get_nodes_from_documents(documents)

创制问题 - 背景对照组:

为了进行有效评估,我们构建了一个包含问题与其背景信息的配对数据集。这一数据集基本上是我们数据库中各个问题及其对应背景信息的集合。为了公正地评估嵌入系统(如 OpenAI/ CohereAI)和重排序系统(CohereAI),我们用 Anthropic LLM 来生成这些问题 - 背景对。

下面我们设置一个模板,用以产生问题 - 背景对。

#Prompttogeneratequestions
qa_generate_prompt_tmpl="""\
Contextinformationisbelow.


---------------------
{context_str}
---------------------


Giventhecontextinformationandnotpriorknowledge.
generateonlyquestionsbasedonthebelowquery.


YouareaProfessor.Yourtaskistosetup\
{num_questions_per_chunk}questionsforanupcoming\
quiz/examination.Thequestionsshouldbediverseinnature\
acrossthedocument.Thequestionsshouldnotcontainoptions,notstartwithQ1/Q2.\
Restrictthequestionstothecontextinformationprovided.\
"""
llm=Anthropic(api_key=anthropic_api_key)
qa_dataset=generate_question_context_pairs(
nodes,llm=llm,num_questions_per_chunk=2
)

这是一个过滤掉类似Here are 2 questions based on provided context句型的功能函数

#functiontocleanthedataset
deffilter_qa_dataset(qa_dataset):
"""
Filtersoutqueriesfromtheqa_datasetthatcontaincertainphrasesandthecorresponding
entriesintherelevant_docs,andcreatesanewEmbeddingQAFinetuneDatasetobjectwith
thefiltereddata.


:paramqa_dataset:Anobjectthathas'queries','corpus',and'relevant_docs'attributes.
:return:AnEmbeddingQAFinetuneDatasetobjectwiththefilteredqueries,corpusandrelevant_docs.
"""


#Extractkeysfromqueriesandrelevant_docsthatneedtoberemoved
queries_relevant_docs_keys_to_remove={
kfork,vinqa_dataset.queries.items()
if'Hereare2'invor'Herearetwo'inv
}


#Filterqueriesandrelevant_docsusingdictionarycomprehensions
filtered_queries={
k:vfork,vinqa_dataset.queries.items()
ifknotinqueries_relevant_docs_keys_to_remove
}
filtered_relevant_docs={
k:vfork,vinqa_dataset.relevant_docs.items()
ifknotinqueries_relevant_docs_keys_to_remove
}


#CreateanewinstanceofEmbeddingQAFinetuneDatasetwiththefiltereddata
returnEmbeddingQAFinetuneDataset(
queries=filtered_queries,
corpus=qa_dataset.corpus,
relevant_docs=filtered_relevant_docs
)


#filteroutpairswithphrases`Hereare2questionsbasedonprovidedcontext`
qa_dataset=filter_qa_dataset(qa_dataset)

定制检索系统:

我们使用嵌入模型与重排序器的结合来确定最优的检索系统。起初,我们建立了一个基础的VectorIndexRetriever检索系统。在检索到节点之后,我们又加入了重排序器以便对结果进行进一步的优化。值得一提的是,在这项特定实验中,我们把 similarity_top_k 的设置值定为 10,并且选用重排序器的前 5 名结果。当然,根据您具体实验的需求,这个参数是可以调整的。我们这里显示的是使用OpenAIEmbedding的代码,请访问笔记本[2]来查阅使用其他嵌入方法的代码。

embed_model=OpenAIEmbedding()
service_context=ServiceContext.from_defaults(llm=None,embed_model=embed_model)
vector_index=VectorStoreIndex(nodes,service_context=service_context)
vector_retriever=VectorIndexRetriever(index=vector_index,similarity_top_k=10)
classCustomRetriever(BaseRetriever):
"""CustomretrieverthatperformsbothVectorsearchandKnowledgeGraphsearch"""


def__init__(
self,
vector_retriever:VectorIndexRetriever,
)->None:
"""Initparams."""


self._vector_retriever=vector_retriever


def_retrieve(self,query_bundleueryBundle)->List[NodeWithScore]:
"""Retrievenodesgivenquery."""


retrieved_nodes=self._vector_retriever.retrieve(query_bundle)


ifreranker!='None':
retrieved_nodes=reranker.postprocess_nodes(retrieved_nodes,query_bundle)
else:
retrieved_nodes=retrieved_nodes[:5]


returnretrieved_nodes


asyncdef_aretrieve(self,query_bundleueryBundle)->List[NodeWithScore]:
"""Asynchronouslyretrievenodesgivenquery.


Implementedbytheuser.


"""
returnself._retrieve(query_bundle)


asyncdefaretrieve(self,str_or_query_bundleueryType)->List[NodeWithScore]:
ifisinstance(str_or_query_bundle,str):
str_or_query_bundle=QueryBundle(str_or_query_bundle)
returnawaitself._aretrieve(str_or_query_bundle)


custom_retriever=CustomRetriever(vector_retriever)

评价标准:

我们通过计算平均倒数排名(MRR)和命中率来评价检索系统的性能:

retriever_evaluator=RetrieverEvaluator.from_metric_names(
["mrr","hit_rate"],retriever=custom_retriever
)
eval_results=awaitretriever_evaluator.aevaluate_dataset(qa_dataset)

结果解读:

我们对一系列嵌入模型和重排序器进行了测试。这里有我们选取考虑的一些模型:

嵌入模型包括

重排序器方面,我们测试了

特别说明的是,这些测试结果给我们提供了对特定数据集和任务效能的深刻见解。然而,根据数据的不同特点、数据集的规模大小以及一些其它因素,比如数据块大小、相似度筛选范围等,真实的结果可能会有所差异。

以下表格根据命中率和平均倒数排名(MRR)这两个指标,展示了评估结果:

分析阐述:

嵌入技术的性能表现:

重排技术的影响力:

重排技术的必要性:

综合实力对比:

总之,如果想要在命中率和 MRR 上都达到最优性能,将**OpenAI****Voyage**的嵌入式系统与**CohereRerank / bge-reranker-large**结合使用将会是最佳选择。

结语:

在本篇博客文章中,我们展示了利用不同的嵌入式系统和重新排序工具来评价和增强信息检索性能的方法。以下是我们的最终结论:






欢迎光临 链载Ai (https://www.lianzai.com/) Powered by Discuz! X3.5