【RAG论文】通过HyDE提升检索效果 - 链载Ai

paper：https://arxiv.org/pdf/2212.10496

code：https://github.com/texttron/hyde

这篇文章主要做zero-shot场景下的稠密检索，通过借助LLM的力量不需要Relevance Labels，开箱即用。作者提出Hypothetical Document Embeddings (HyDE)方法，即“假设”文档嵌入。具体的做法是通过GPT生成虚构的文档，并使用无监督检索器对其进行编码，并在其嵌入空间中进行搜索，从而不需要任何人工标注数据。

模型结构如下图所示，HyDE将密集检索分解为两个任务，即 instruction-following的LM生成任务和对比编码器执行的文档相似性任务。

首先生成一个问题的答案对于给定一个query，将由InstructGPT生成一个能回答该query的假设文档，即a hypothetical document。
使用生成的答案进行检索：使用无监督的稠密检索模型（Contriever）把该文档表示为稠密向量。
最后基于最近邻从语料库中找到相似的文档，作为支撑信息然后进行问答。

unsetunset实现unsetunset

https://github.com/gomate-community/GoMate/blob/main/gomate/modules/rewriter/hyde_rewriter.py


import pandas as pd

from tqdm import tqdm

import os

from gomate.modules.generator.llm import GLMChat

from gomate.modules.retrieval.dense_retriever import DenseRetriever,DenseRetrieverConfig

from gomate.modules.rewriter.base import BaseRewriter

from gomate.modules.rewriter.promptor import Promptor

from gomate.modules.document.common_parser import CommonParser



class HydeRewriter(BaseRewriter):

def __init__(self,promptor,generator,retriever):

self.promptor=promptor

self.generator=generator

self.retriever=retriever



def prompt(self,query):

returnself.promptor.build_prompt(query)



def rewrite(self,query):

prompt=self.promptor.build_prompt(query)

hypothesis_document,_=self.generator.chat(prompt,llm_only=True)

returnhypothesis_document



def retrieve(self,query,top_k=5):

hypothesis_document=self.rewrite(query)

hits=self.retriever.retrieve(hypothesis_document,top_k=top_k)

return{'hypothesis_document':hypothesis_document,'retrieve_result':hits}

检索效果对比：