链载Ai

标题: 最新力作:一招提升RAG检索精度20% [打印本页]

作者: 链载Ai    时间: 前天 14:03
标题: 最新力作:一招提升RAG检索精度20%

把文档先“让LLM写摘要+打标签”,再用混合向量做检索,比直接扔原文进RAG,Top-10命中率从73%干到92%, latency 还更低。下面一起来具体分析:


痛点直击


方案全景

环节
传统做法
本文做法
分块
语义/固定长度
三套并行:Naive / Recursive / Semantic
标签
无或人工
LLM自动生成
三类元数据:
①内容类型②技术实体③用户意图&可能提问
向量
仅原文Embedding
三通道融合

①纯内容②TF-IDF加权③Prefix-Fusion(标签前缀)
重排
Cross-Encoder(BAAI/bge-reranker)生成0-1相关度真值

工作原理(3步10秒看懂)

  1. Recursive Chunking
    先按段落→句子→token三级拆分,512 token滑窗128重叠,结构不断层
  2. LLM元数据工厂
    用GPT-4o(temp=0.5)批量输出JSON格式标签,单chunk<500 ms
  3. TF-IDF加权向量
    原文Embedding × 0.7 + 元数据TF-IDF向量 × 0.3,Snowflake Arctic-Embed-m一次编码,1536维

实验结果(AWS S3 6K页文档)

配置
Hit@10
精度@10
NDCG@10
语义分块+原文向量(基线)
0.788
0.733
0.730
Naive+TF-IDF加权
⬆️
0.925
0.702
0.717
Recursive+TF-IDF加权
⬆️
0.825
0.8250.807

给企业落地的一张 checklist

先上Recursive+TF-IDF:精度最稳,82%起步
Hit率优先场景(如客服QA)改用Naive+Prefix-Fusion,直接冲92%
元数据Prompt模板固定输出JSON,方便后续换更小LLM降本
Cross-Encoder重排只在离线标注阶段用,线上仍走双Encoder,延迟可控


一句话带走

“让LLM先给文档写‘小抄’,再进RAG,企业知识库立刻少幻觉、多命中。”






欢迎光临 链载Ai (http://www.lianzai.com/) Powered by Discuz! X3.5