❝你以为RAG(Retrieval-Augmented Generation)检索只能靠向量?那你可就out了!今天,咱们就来聊聊如何用“向量+关键词”双剑合璧,打造检索界的“六边形战士”——融合检索(Fusion Retrieval)。
在AI知识检索的江湖里,向量检索和关键词检索(BM25)各有绝活:
但问题来了:
于是,江湖呼唤一个能“文武双全”的检索大侠——融合检索。
融合检索(Fusion Retrieval)就是把向量和关键词检索的优点揉在一起,既能“意会”又能“言传”,让检索结果既懂你心思,又不丢细节。
别怕,流程其实很简单,咱们用伪代码和思路带你飞:
是不是很丝滑?下面我们逐步拆解。
用PyMuPDF等工具,把PDF里的内容一页页扒出来,拼成大文本。
text = extract_text_from_pdf(pdf_path)
去掉多余空格、换行、奇怪符号,保证后续处理不“踩雷”。
cleaned_text = clean_text(text)
把大文本切成小块(比如每1000字符一块,重叠200字符),这样既能覆盖上下文,又不丢细节。
chunks = chunk_text(cleaned_text, chunk_size=1000, chunk_overlap=200)
用OpenAI/BGE等embedding模型,把每个chunk变成“高维向量”,存进自定义的向量库。
embeddings = create_embeddings([chunk["text"] for chunk in chunks])
vector_store.add_items(chunks, embeddings)
用BM25算法,把每个chunk的词分词、建索引,方便后续“关键词检索”。
bm25_index = create_bm25_index(chunks)
用用户query生成embedding,和所有chunk的embedding算余弦相似度,取Top-K。
vector_results = vector_store.similarity_search_with_scores(query_embedding, k=K)
把query分词,和BM25索引比对,算分数,取Top-K。
bm25_results = bm25_search(bm25_index, chunks, query, k=K)
伪代码如下:
norm_vector_scores = normalize(vector_scores)
norm_bm25_scores = normalize(bm25_scores)
combined_scores = alpha * norm_vector_scores + (1 - alpha) * norm_bm25_scores
按combined_scores排序,取前K个chunk,拼成context。
把Top-K chunk拼成context,和query一起丢给大模型(如Llama3、GPT-4),让它“有理有据”地回答。
response = generate_response(query, context)
我们分别用三种方式回答同一个问题,比如:
❝“Transformer模型在自然语言处理中的主要应用有哪些?”
结论:融合检索完胜!
可以多做A/B测试,找到最适合你业务的权重。
融合检索不是“银弹”,但在大多数实际场景下,它能显著提升RAG系统的召回率和答案质量。它让AI既能“知其然”,又能“知其所以然”。
一句话总结:
❝“向量检索懂你,BM25不放过你,融合检索——既懂你又不放过你!”
用户Query
│
├─► 向量检索(语义理解) ──┐
│ │
├─► BM25检索(关键词匹配) ─┤→ 分数归一化 → 加权融合 → Top-K排序
│ │
└────────────────────────────┘
│
拼成Context
│
丢给大模型生成答案
赶紧把你的RAG升级成“融合检索”吧!让你的AI助手,既能“知你所想”,又能“答你所问”!
关注我,带你玩转AI检索的每一个细节!
互动话题:你在实际项目中遇到过哪些检索“翻车”场景?
| 欢迎光临 链载Ai (https://www.lianzai.com/) | Powered by Discuz! X3.5 |