全链路评估流程 1. 文档收集与解析 - 来源:开源网站(金融、科技、医疗、互联网等领域) - 格式:PDF、DOC、PPT、XLSX - 时间跨度:主要为近年文档,部分为2024年,超越GPT-4等模型知识截止日期 2. 文档分块与标题补全 - 使用 LlamaIndex(PDF/DOC/PPT)和 Pandas(XLSX)进行内容提取 - 分块大小:512 tokens,重叠100 tokens - 利用 GPT-4 从首片段提取关键信息作为标题,附加至各片段以增强上下文连贯性 3. 评估数据构建 数据构建过程包括查询生成、多粒度关键词生成和参考答案生成 数据构建三要素如下表
四类查询定义与示例如下表
4. 评估指标评估指标设计(按阶段划分)¶
|
维度 | 贡献 |
方法论创新 | 提出多粒度关键词机制,摆脱对“黄金片段”的依赖,支持灵活分块策略 |
评估全面性 | 实现RAG全流程(分块→检索→重排序→生成)可解释评估 |
数据多样性 | 构建包含多格式文档、四类查询、中英文双语的综合性基准数据集 |
实用性提升 | 支持自动化标注+人工审核,兼顾效率与质量,适用于真实系统优化 |
总结
优点:
全链路评估
创新点:首次系统性地将RAG流程划分为 chunking → retrieval → reranking → generation 四个阶段,并分别设计评估方法。
好处:可以精确定位系统瓶颈,避免“黑盒”式评估,提升优化效率。
多粒度关键词
创新点:用“粗粒度关键词”+“细粒度关键词”替代传统的“golden chunk”标注方式。
好处:无需为每个chunk打标签,降低人工成本、支持灵活调整chunking策略,避免重新标注
多样化数据场景
创新点:构建了覆盖 PDF、PPT、DOC、XLSX 等多种文档格式的知识库
好处:更贴近真实应用场景,支持 factual / analytical / comparative / tutorial 四类查询,覆盖更广的用户需求
局限性:
评估指标偏传统
检索阶段仍使用Recall/Accuracy,生成阶段使用 BLEU/Rouge/等。 计算存在一定的局限性,只通过字词的共现来评估,缺乏语义层面的评估
多粒度关键词的泛化能力未知
虽然避免了golden chunk依赖,但关键词本身是否足够鲁棒、是否能覆盖所有查询类型仍待验证、对于高度抽象或跨段落推理的查询,关键词可能难以捕捉完整语义。
评估没有考虑多轮对话等复杂场景
当前评估是单次检索+生成的静态流程。未涉及多轮对话、动态检索等复杂场景的评估