ingFang SC", system-ui, -apple-system, BlinkMacSystemFont, "Helvetica Neue", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;font-size: 17px;font-style: normal;font-variant-ligatures: normal;font-variant-caps: normal;font-weight: 400;letter-spacing: 0.544px;orphans: 2;text-align: justify;text-transform: none;widows: 2;word-spacing: 0px;-webkit-text-stroke-width: 0px;white-space: normal;background-color: rgb(255, 255, 255);text-decoration-thickness: initial;text-decoration-style: initial;text-decoration-color: initial;text-indent: 2em;visibility: visible;box-sizing: border-box !important;overflow-wrap: break-word !important;"> 随着LLM系统规模的扩大,确保其性能保持稳当可靠成为真正的挑战。因此,构建可靠且高效的基于LLM的应用系统,需要的不仅仅是部署一个模型,还需要持续评估以确保质量和可观察性,以便能够在部署后发现问题。 很多团队在兴奋地搭完 RAG 管道后,却发现效果“玄学”:同样一套数据和模型,时而答得精准,时而胡说八道,线上用户反馈也忽好忽坏。到底是检索质量不行?还是生成阶段崩了?抑或上下文过长导致注意力稀释?浏览器访问https://www.comet.com,并创建一个账户。完成后,将进入Opik的监控面板,在右侧“个人信息”找到API_KEY管理。在当前工作目录创建一个.env文件,写入以下配置:OPIK_API_KEY=q4AFia9yxMN3qOYHGxxxxxx importopikopik.configure(use_local=False)#本地监控设置use_local=True [opik]url_override=https://www.comet.com/opik/api/workspace=xxxxxapi_key=q4AFia9yxMN3qOYHGnaxxxxx 使用pip安装Opik Python SDK开发包和LlamaIndex的集成模块:pipinstallopikpipinstallllama-index 准备一个用于评估的数据集,数据集包含输入查询及其对应的预期输出。能够衡量LLM应用程序在一致性、事实性等多个参数上的表现。每个查询项都将通过RAG应用程序进行处理,以生成相应。在检索过程中,必须先向向量数据库中检索一些上下文信息,再生成相应:使用预定义的评估指标,把应用程序的输出与预期输出进行比较,从而生成反馈分数。此外,还将比较预期上下文和减速到的上下文以评估检索流程。Opik将跟踪和监控试验,在其仪表盘中记录每个数据集项的输出输出和分数,以便于分析。将LlamaIndex与Opik集成能够跟踪LlamaIndex操作,例如文档分块和索引,以生成查询和检索。需要配置一个Opik回调处理程序,回调程序充当LlamaIndex和Opik之间的桥梁,实时记录所有操作。从LlamaIndex和Opik开发包导入处理程序:callbackManager、LlamaIndexCallBackHandlerfromllama_index.coreimportSettingsfromllama_index.core.callbacksimportCallbackManagerfromopik.integrations.llama_indeximportLlamaIndexCallbackHandler 创建一个LlamaIndexCallBackHandler实例,实例会总结将所偶LlamaIndex所有操作记录到Opik。最后,使用LlamaIndexx的Setting来集成CallbackManager,确保LlamaIndex执行的每个操作都会被跟踪。Settings.callback_manager=CallbackManager([opik_callback_handler]) 使用LlamaIndex加载文档、构建索引并查询索引获得响应。# Step 1: Load the documentsdocuments = SimpleDirectoryReader("./data/paul_graham").load_data()
# Step 2: Create the indexindex = VectorStoreIndex.from_documents(documents)
# Step 3: Create a query enginequery_engine = index.as_query_engine()
response = query_engine.query("What did the author do growing up?")
>>> print(response)
- 使用SimpleDirectoryReader读取下载目录中的所有文档。
- 文档加载完成后,VectorStoreIndex遍创建了索引,作为高校检索的基础。索引将问文档内容映射到存储在内存中的向量空间。
- 索引准备就绪后,即可创建一个查询引擎,用于执行语义搜索并根据索引数据回答特定问题。
创建一个数据集来对其进行评估,数据集包括一个问题、一个答案以及得出该答案的背景信息。fromopikimporttrack
@trackdefmy_llm_application(input:str) ->str: response = query_engine.query(input) returnstr(response) 使用@track装饰器定义一个函数,函数接收用户查询,并提供一个字符串输出(即RAG应用的输出)。这个函数可以是RAG、multimodal RAG、Agentic RAG等。from opik.evaluation.metrics import ( Hallucination, AnswerRelevance, ContextPrecision, ContextRecall)
hallucination_metric = Hallucination()answer_relevance_metric = AnswerRelevance()context_precision_metric = ContextPrecision()context_recall_metric = ContextRecall() 根据预期输出和应用程序给出的输出,将获得LLM应用程序的反馈分数。将所有内容整合到一起-数据集、评估任务、评分指标,以及实验配置,还制定了用作评估系统的模型,该模型充当评判者,监控RAG问答是如何工作的。fromopik.evaluationimportevaluate
evaluation =evaluate( dataset=dataset, task=evaluation_task, scoring_metrics=[hallucination_metric, answer_relevance_metric, context_precision_metric, context_recall_metric], experiment_config={ "model":MODEL }) 另外,还可以在Opik控制面板“实验”部分查看这些结果,当出现幻觉时还可以查看更多细节以及生成特定分数的原因,更多使用方法请参考Opik官方使用文档。 |