返回顶部
热门问答 更多热门问答
技术文章 更多技术文章

最新力作:一招提升RAG检索精度20%

[复制链接]
链载Ai 显示全部楼层 发表于 3 天前 |阅读模式 打印 上一主题 下一主题

把文档先“让LLM写摘要+打标签”,再用混合向量做检索,比直接扔原文进RAG,Top-10命中率从73%干到92%, latency 还更低。下面一起来具体分析:


痛点直击

  • 企业知识库动辄上千页,传统语义分块+Embedding常“漏答案”
  • 人工写标签成本高,且随文档膨胀迅速失控
  • 长文档“中间丢失”现象导致LLM幻觉频发

方案全景

环节
传统做法
本文做法
分块
语义/固定长度
三套并行:Naive / Recursive / Semantic
标签
无或人工
LLM自动生成
三类元数据:
①内容类型②技术实体③用户意图&可能提问
向量
仅原文Embedding
三通道融合

①纯内容②TF-IDF加权③Prefix-Fusion(标签前缀)
重排
Cross-Encoder(BAAI/bge-reranker)生成0-1相关度真值

工作原理(3步10秒看懂)

  1. Recursive Chunking
    先按段落→句子→token三级拆分,512 token滑窗128重叠,结构不断层
  2. LLM元数据工厂
    用GPT-4o(temp=0.5)批量输出JSON格式标签,单chunk<500 ms
  3. TF-IDF加权向量
    原文Embedding × 0.7 + 元数据TF-IDF向量 × 0.3,Snowflake Arctic-Embed-m一次编码,1536维

实验结果(AWS S3 6K页文档)

配置
Hit@10
精度@10
NDCG@10
语义分块+原文向量(基线)
0.788
0.733
0.730
Naive+TF-IDF加权
⬆️
0.925
0.702
0.717
Recursive+TF-IDF加权
⬆️
0.825
0.8250.807
  • 元数据使向量聚类更紧密(最近邻距离↓17%)
  • 检索延迟反降12%——标签过滤提前剪掉30%候选

给企业落地的一张 checklist

先上Recursive+TF-IDF:精度最稳,82%起步
Hit率优先场景(如客服QA)改用Naive+Prefix-Fusion,直接冲92%
元数据Prompt模板固定输出JSON,方便后续换更小LLM降本
Cross-Encoder重排只在离线标注阶段用,线上仍走双Encoder,延迟可控


一句话带走

“让LLM先给文档写‘小抄’,再进RAG,企业知识库立刻少幻觉、多命中。”

回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

链载AI是专业的生成式人工智能教程平台。提供Stable Diffusion、Midjourney AI绘画教程,Suno AI音乐生成指南,以及Runway、Pika等AI视频制作与动画生成实战案例。从提示词编写到参数调整,手把手助您从入门到精通。
  • 官方手机版

  • 微信公众号

  • 商务合作

  • Powered by Discuz! X3.5 | Copyright © 2025-2025. | 链载Ai
  • 桂ICP备2024021734号 | 营业执照 | |广西笔趣文化传媒有限公司|| QQ