返回顶部
热门问答 更多热门问答
技术文章 更多技术文章

RAG评估:Opik监控追踪RAG应用

[复制链接]
链载Ai 显示全部楼层 发表于 半小时前 |阅读模式 打印 上一主题 下一主题

ingFang SC", system-ui, -apple-system, BlinkMacSystemFont, "Helvetica Neue", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;font-size: 17px;font-style: normal;font-variant-ligatures: normal;font-variant-caps: normal;font-weight: 400;letter-spacing: 0.544px;orphans: 2;text-align: justify;text-transform: none;widows: 2;word-spacing: 0px;-webkit-text-stroke-width: 0px;white-space: normal;background-color: rgb(255, 255, 255);text-decoration-thickness: initial;text-decoration-style: initial;text-decoration-color: initial;text-indent: 2em;visibility: visible;box-sizing: border-box !important;overflow-wrap: break-word !important;">

随着LLM系统规模的扩大,确保其性能保持稳当可靠成为真正的挑战。因此,构建可靠且高效的基于LLM的应用系统,需要的不仅仅是部署一个模型,还需要持续评估以确保质量和可观察性,以便能够在部署后发现问题。
很多团队在兴奋地搭完 RAG 管道后,却发现效果“玄学”:同样一套数据和模型,时而答得精准,时而胡说八道,线上用户反馈也忽好忽坏。到底是检索质量不行?还是生成阶段崩了?抑或上下文过长导致注意力稀释?
配置Opik监控
浏览器访问https://www.comet.com,并创建一个账户。完成后,将进入Opik的监控面板,在右侧“个人信息”找到API_KEY管理。
在当前工作目录创建一个.env文件,写入以下配置:
OPIK_API_KEY=q4AFia9yxMN3qOYHGxxxxxx
需要进行Opik配置:
importopikopik.configure(use_local=False)#本地监控设置use_local=True
这段配置执行完成,会在用户目录创建一个配置文件:

生成配置内容:
[opik]url_override=https://www.comet.com/opik/api/workspace=xxxxxapi_key=q4AFia9yxMN3qOYHGnaxxxxx
使用Opik进行RAG追踪
0.安装开发依赖
使用pip安装Opik Python SDK开发包和LlamaIndex的集成模块:
pipinstallopikpipinstallllama-index
1.定义数据集
准备一个用于评估的数据集,数据集包含输入查询及其对应的预期输出。能够衡量LLM应用程序在一致性、事实性等多个参数上的表现。
2.运行试验
每个查询项都将通过RAG应用程序进行处理,以生成相应。在检索过程中,必须先向向量数据库中检索一些上下文信息,再生成相应:

使用预定义的评估指标,把应用程序的输出与预期输出进行比较,从而生成反馈分数。此外,还将比较预期上下文和减速到的上下文以评估检索流程。
3.追踪实验进展
Opik将跟踪和监控试验,在其仪表盘中记录每个数据集项的输出输出和分数,以便于分析。
将LlamaIndex与Opik集成
将LlamaIndex与Opik集成能够跟踪LlamaIndex操作,例如文档分块和索引,以生成查询和检索。需要配置一个Opik回调处理程序,回调程序充当LlamaIndex和Opik之间的桥梁,实时记录所有操作。
从LlamaIndex和Opik开发包导入处理程序:callbackManager、LlamaIndexCallBackHandler
fromllama_index.coreimportSettingsfromllama_index.core.callbacksimportCallbackManagerfromopik.integrations.llama_indeximportLlamaIndexCallbackHandler
创建一个LlamaIndexCallBackHandler实例,实例会总结将所偶LlamaIndex所有操作记录到Opik。
最后,使用LlamaIndexx的Setting来集成CallbackManager,确保LlamaIndex执行的每个操作都会被跟踪。
Settings.callback_manager=CallbackManager([opik_callback_handler])
构建RAG应用程序
使用LlamaIndex加载文档、构建索引并查询索引获得响应。
# Step 1: Load the documentsdocuments = SimpleDirectoryReader("./data/paul_graham").load_data()
# Step 2: Create the indexindex = VectorStoreIndex.from_documents(documents)
# Step 3: Create a query enginequery_engine = index.as_query_engine()
response = query_engine.query("What did the author do growing up?")
>>> print(response)
  • 使用SimpleDirectoryReader读取下载目录中的所有文档。
  • 文档加载完成后,VectorStoreIndex遍创建了索引,作为高校检索的基础。索引将问文档内容映射到存储在内存中的向量空间。
  • 索引准备就绪后,即可创建一个查询引擎,用于执行语义搜索并根据索引数据回答特定问题。
使用Opik进行RAG评估和跟踪
创建数据集
创建一个数据集来对其进行评估,数据集包括一个问题、一个答案以及得出该答案的背景信息。
创建数据集项:
自定义字段:
使用Opik监控RAG应用
fromopikimporttrack
@trackdefmy_llm_application(input:str) ->str: response = query_engine.query(input) returnstr(response)
使用@track装饰器定义一个函数,函数接收用户查询,并提供一个字符串输出(即RAG应用的输出)。这个函数可以是RAG、multimodal RAG、Agentic RAG等。
定义评估指标
from opik.evaluation.metrics import (  Hallucination,  AnswerRelevance,  ContextPrecision,  ContextRecall)
hallucination_metric = Hallucination()answer_relevance_metric = AnswerRelevance()context_precision_metric = ContextPrecision()context_recall_metric = ContextRecall()
根据预期输出和应用程序给出的输出,将获得LLM应用程序的反馈分数。将所有内容整合到一起-数据集、评估任务、评分指标,以及实验配置,还制定了用作评估系统的模型,该模型充当评判者,监控RAG问答是如何工作的。
fromopik.evaluationimportevaluate
evaluation =evaluate( dataset=dataset, task=evaluation_task, scoring_metrics=[hallucination_metric, answer_relevance_metric, context_precision_metric, context_recall_metric], experiment_config={ "model":MODEL })
由此得出评估结果:
另外,还可以在Opik控制面板“实验”部分查看这些结果,当出现幻觉时还可以查看更多细节以及生成特定分数的原因,更多使用方法请参考Opik官方使用文档。

回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

链载AI是专业的生成式人工智能教程平台。提供Stable Diffusion、Midjourney AI绘画教程,Suno AI音乐生成指南,以及Runway、Pika等AI视频制作与动画生成实战案例。从提示词编写到参数调整,手把手助您从入门到精通。
  • 官方手机版

  • 微信公众号

  • 商务合作

  • Powered by Discuz! X3.5 | Copyright © 2025-2025. | 链载Ai
  • 桂ICP备2024021734号 | 营业执照 | |广西笔趣文化传媒有限公司|| QQ