链载Ai

标题: KnowEval:RAG 工程化的最后一公里,让问答质量有据可依 [打印本页]

作者: 链载Ai    时间: 昨天 22:43
标题: KnowEval:RAG 工程化的最后一公里,让问答质量有据可依

KnowEval:RAG 工程化的最后一公里,让问答质量有据可依

前言

为什么需要 KnowEval?

在过去一年与众多企业客户的交流中,我们发现一个普遍的痛点:RAG 系统上线后,如何量化评估问答质量?如何系统化提升检索效果?如何在多个优化方案中选择最优解?

很多团队花费大量时间调试 RAG 系统,但往往凭感觉调参,缺乏数据支撑。A/B 测试需要人工逐条对比,效率低下。更关键的是,没有一套标准化的评测体系,就无法形成可持续优化的闭环。

基于此,我们推出了KnowEval - 专为 RAG 系统打造的全链路评测平台,将评测这个"隐形能力"变成可视化、可量化、可优化的工程化能力。

评估表盘

新功能

KnowEval v1.0.0 正式发布,本版本推出以下核心能力:

1. 五维度评测体系

我们基于业界领先的 RAGAS 框架,构建了完整的 RAG 评测指标体系:

2. AI 智能生成测试集

手动构建测试数据集费时费力,我们提供了AI 自动生成测试集功能:

数据集管理
AI 自动数据集

3. 可视化评测报告

告别枯燥的数字表格,我们提供了直观的可视化报告:

4. 对接 KnowFlow,形成完整闭环

KnowEval 与 KnowFlow 深度集成,形成"数据治理 → RAG 检索 → 质量评测 → 持续优化"的完整闭环:



1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27

┌─────────────────────────────────────────────────────────┐
│ KnowFlow 生态 │
├─────────────────────────────────────────────────────────┤
│ │
│ ┌──────────────┐ ┌──────────────┐ │
│ │ KnowFlow │──────▶│ RAG 应用 │ │
│ │ 知识库平台 │ │ 业务场景 │ │
│ └──────────────┘ └──────┬───────┘ │
│ │ │ │
│ │ │ │
│ ┌──────▼──────────────────────▼───────┐ │
│ │ KnowEval 评测平台 │ │
│ ├─────────────────────────────────────┤ │
│ │ • 五维度评测指标 │ │
│ │ • AI 生成测试集 │ │
│ │ • 可视化分析报告 │ │
│ │ • A/B 测试对比 │ │
│ └─────────────┬───────────────────────┘ │
│ │ │
│ ┌─────────────▼───────────────────────┐ │
│ │ 数据驱动的优化决策 │ │
│ │ • 切块方法调优 │ │
│ │ • 检索参数优化 │ │
│ │ • Prompt 迭代改进 │ │
│ └─────────────────────────────────────┘ │
│ │
└─────────────────────────────────────────────────────────┘



缺陷修复

作为首个正式版本,我们在内测阶段修复了大量问题:

  1. 1. 修复并发评测时的超时问题,优化为多 worker 并行
  2. 2. 修复 embeddings 模型配置加载失败的问题
  3. 3. 修复评测进度更新不实时的问题
  4. 4. 修复长文本评测导致的 token 超限问题

优化

  1. 1.评测速度大幅提升:通过并行优化,10 个样本的评测时间从 8 分钟降低到 2-3 分钟
  2. 2.支持多种 LLM 提供商:OpenAI、SiliconFlow、DeepSeek、智谱 AI 等
  3. 3.完善的错误处理:评测失败时提供详细的错误诊断信息
  4. 4.数据持久化:所有评测结果永久保存,支持历史对比

本版本同时提供了Docker 一键部署方案,3 分钟即可完成部署。详情可参考官方文档。


产品细节

一、五维度评测体系:从主观判断到量化分析

传统的 RAG 评测依赖人工抽查,效率低且主观性强。KnowEval 基于RAGAS 框架,提供了五大评测维度:

1. 忠实度 (Faithfulness)

评测目标:答案是否基于检索到的上下文,而非 LLM 的内部知识或"幻觉"。

技术实现

应用场景:金融、法律等对事实准确性要求极高的领域。



1
2
3
4
5
6
7
8
9
10
11
12
13
14

# 示例评测逻辑
faithfulness = supported_statements / total_statements

# 示例结果
# 问题:"KnowFlow 支持哪些文档格式?"
# 上下文:"KnowFlow 支持 PDF、Word、Excel、PPT 等格式。"
# 回答:"KnowFlow 支持 PDF、Word 和 Markdown 格式。"
#
# 分析:
# ✅ "支持 PDF" - 有依据
# ✅ "支持 Word" - 有依据
# ❌ "支持 Markdown" - 无依据(上下文未提及)
#
# 忠实度得分:2/3 = 66.7%



2. 答案正确性 (Answer Correctness)

评测目标:对比标准答案,综合评估语义相似度和事实准确性。

技术实现

应用场景:有明确标准答案的场景,如产品 FAQ、操作手册等。



1
2
3
4
5
6
7
8
9
10

# 计算公式
answer_correctness = α × f1_score + β × similarity_score

# 示例结果
# 标准答案:"喷砂钢材表面可溶性氯化物含量应不大于 7 μg/cm²。"
# 实际答案:"喷砂钢材表面可溶性氯化物含量应不大于 7μg/cm²。超标时应采用高压淡水冲洗。"
#
# F1 Score: 0.95 (关键信息准确)
# Similarity: 0.88 (语义高度相似)
# Answer Correctness: 0.92



3. 上下文精确度 (Context Precision)

评测目标:检索到的文档片段是否与问题高度相关。

技术实现

应用场景:优化检索算法,减少无关文档干扰。

4. 上下文召回率 (Context Recall)

评测目标:是否检索到回答问题所需的所有关键信息。

技术实现

应用场景:诊断检索遗漏问题,优化 Top-K 参数。

5. 答案相关性 (Answer Relevancy)

评测目标:答案是否切题,没有包含冗余或无关信息。

技术实现

应用场景:优化 Prompt,避免答案啰嗦或跑题。


二、AI 智能生成测试集:从 0 到 1 的突破

手动构建测试数据集是 RAG 评测的最大瓶颈。KnowEval 提供了AI 自动生成测试集功能,彻底解决这一痛点。

工作流程



1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25

┌─────────────────────────────────────────────────────────┐
│ AI 生成测试集工作流 │
├─────────────────────────────────────────────────────────┤
│ │
│ ① 选择知识库 │
│ └─▶ 连接 KnowFlow/RAGFlow │
│ │
│ ② 配置生成参数 │
│ ├─▶ 生成数量 (1-100) │
│ ├─▶ 问题类型 (事实型/推理型/对比型) │
│ └─▶ 难度等级 (简单/中等/困难) │
│ │
│ ③ AI 智能生成 │
│ ├─▶ 从知识库提取文档片段 │
│ ├─▶ 基于片段生成自然问题 │
│ ├─▶ 提取标准答案 │
│ └─▶ 关联参考上下文 │
│ │
│ ④ 人工审核(可选) │
│ └─▶ 预览、编辑、删除 │
│ │
│ ⑤ 一键导入评测 │
│ └─▶ 立即开始评测 │
│ │
└─────────────────────────────────────────────────────────┘



技术亮点

  1. 1.智能问题生成:基于文档语义自动生成多样化问题






欢迎光临 链载Ai (https://www.lianzai.com/) Powered by Discuz! X3.5