RAG评估:Opik监控追踪RAG应用

显示全部楼层

ingFang SC", system-ui, -apple-system, BlinkMacSystemFont, "Helvetica Neue", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;font-size: 17px;font-style: normal;font-variant-ligatures: normal;font-variant-caps: normal;font-weight: 400;letter-spacing: 0.544px;orphans: 2;text-align: justify;text-transform: none;widows: 2;word-spacing: 0px;-webkit-text-stroke-width: 0px;white-space: normal;background-color: rgb(255, 255, 255);text-decoration-thickness: initial;text-decoration-style: initial;text-decoration-color: initial;text-indent: 2em;visibility: visible;box-sizing: border-box !important;overflow-wrap: break-word !important;">

随着LLM系统规模的扩大，确保其性能保持稳当可靠成为真正的挑战。因此，构建可靠且高效的基于LLM的应用系统，需要的不仅仅是部署一个模型，还需要持续评估以确保质量和可观察性，以便能够在部署后发现问题。

很多团队在兴奋地搭完 RAG 管道后，却发现效果“玄学”：同样一套数据和模型，时而答得精准，时而胡说八道，线上用户反馈也忽好忽坏。到底是检索质量不行？还是生成阶段崩了？抑或上下文过长导致注意力稀释？

配置Opik监控

浏览器访问https://www.comet.com，并创建一个账户。完成后，将进入Opik的监控面板，在右侧“个人信息”找到API_KEY管理。

在当前工作目录创建一个.env文件,写入以下配置：

OPIK_API_KEY=q4AFia9yxMN3qOYHGxxxxxx

需要进行Opik配置：

importopikopik.configure(use_local=False)#本地监控设置use_local=True

这段配置执行完成，会在用户目录创建一个配置文件：

生成配置内容：

[opik]url_override=https://www.comet.com/opik/api/workspace=xxxxxapi_key=q4AFia9yxMN3qOYHGnaxxxxx

使用Opik进行RAG追踪

0.安装开发依赖

使用pip安装Opik Python SDK开发包和LlamaIndex的集成模块：

pipinstallopikpipinstallllama-index

1.定义数据集

准备一个用于评估的数据集，数据集包含输入查询及其对应的预期输出。能够衡量LLM应用程序在一致性、事实性等多个参数上的表现。

2.运行试验

每个查询项都将通过RAG应用程序进行处理，以生成相应。在检索过程中，必须先向向量数据库中检索一些上下文信息，再生成相应：

使用预定义的评估指标，把应用程序的输出与预期输出进行比较，从而生成反馈分数。此外，还将比较预期上下文和减速到的上下文以评估检索流程。

3.追踪实验进展

Opik将跟踪和监控试验，在其仪表盘中记录每个数据集项的输出输出和分数，以便于分析。

将LlamaIndex与Opik集成

将LlamaIndex与Opik集成能够跟踪LlamaIndex操作，例如文档分块和索引，以生成查询和检索。需要配置一个Opik回调处理程序，回调程序充当LlamaIndex和Opik之间的桥梁，实时记录所有操作。

从LlamaIndex和Opik开发包导入处理程序：callbackManager、LlamaIndexCallBackHandler

fromllama_index.coreimportSettingsfromllama_index.core.callbacksimportCallbackManagerfromopik.integrations.llama_indeximportLlamaIndexCallbackHandler

创建一个LlamaIndexCallBackHandler实例，实例会总结将所偶LlamaIndex所有操作记录到Opik。

最后，使用LlamaIndexx的Setting来集成CallbackManager，确保LlamaIndex执行的每个操作都会被跟踪。

Settings.callback_manager=CallbackManager([opik_callback_handler])

构建RAG应用程序

使用LlamaIndex加载文档、构建索引并查询索引获得响应。

# Step 1: Load the documentsdocuments = SimpleDirectoryReader("./data/paul_graham").load_data()
# Step 2: Create the indexindex = VectorStoreIndex.from_documents(documents)
# Step 3: Create a query enginequery_engine = index.as_query_engine()
response = query_engine.query("What did the author do growing up?")
>>> print(response)

使用SimpleDirectoryReader读取下载目录中的所有文档。

文档加载完成后，VectorStoreIndex遍创建了索引，作为高校检索的基础。索引将问文档内容映射到存储在内存中的向量空间。
索引准备就绪后，即可创建一个查询引擎，用于执行语义搜索并根据索引数据回答特定问题。

使用Opik进行RAG评估和跟踪

创建数据集

创建一个数据集来对其进行评估，数据集包括一个问题、一个答案以及得出该答案的背景信息。

创建数据集项：

自定义字段：

使用Opik监控RAG应用

fromopikimporttrack
@trackdefmy_llm_application(input:str) ->str:  response = query_engine.query(input) returnstr(response)

使用@track装饰器定义一个函数，函数接收用户查询，并提供一个字符串输出（即RAG应用的输出）。这个函数可以是RAG、multimodal RAG、Agentic RAG等。

定义评估指标

from opik.evaluation.metrics import (  Hallucination,  AnswerRelevance,  ContextPrecision,  ContextRecall)
hallucination_metric = Hallucination()answer_relevance_metric = AnswerRelevance()context_precision_metric = ContextPrecision()context_recall_metric = ContextRecall()

根据预期输出和应用程序给出的输出，将获得LLM应用程序的反馈分数。将所有内容整合到一起-数据集、评估任务、评分指标，以及实验配置，还制定了用作评估系统的模型，该模型充当评判者，监控RAG问答是如何工作的。

fromopik.evaluationimportevaluate
evaluation =evaluate(  dataset=dataset,  task=evaluation_task,  scoring_metrics=[hallucination_metric, answer_relevance_metric,          context_precision_metric, context_recall_metric],  experiment_config={   "model":MODEL  })

由此得出评估结果：

另外，还可以在Opik控制面板“实验”部分查看这些结果，当出现幻觉时还可以查看更多细节以及生成特定分数的原因，更多使用方法请参考Opik官方使用文档。