返回顶部
热门问答 更多热门问答
技术文章 更多技术文章

一文彻底搞懂Self-RAG【下】:构建自省式的RAG应用与模型微调

[复制链接]
链载Ai 显示全部楼层 发表于 1 小时前 |阅读模式 打印 上一主题 下一主题

CAMPING

在上一篇中,我们介绍了自省式的RAG(Self-RAG)的诞生动机与基本原理,其核心思想可以总结为:
  • 只在必要的时候才执行检索
  • 借助指标与评分算法从多次LLM输出中选择最优答案
  • 通过微调让LLM在输出中带有自省的token标记

本文将基于Self-RAG开源项目中的selfrag_llama2_7b这个微调模型,展示如何基于这个模型来构建完整的Self-RAG应用。内容包括:
  • 模型测试
  • 构建Self-RAG应用
  • 应用的优化思考
  • 模型的微调方法

01

模型测试:selfrag_llama2_7b

我们首先来直接测试与感受带有自省tokens输出能力的selfrag_llama2_7b模型,观察这个模型输出的不同之处。这里使用llama_cpp作为本地LLM推理工具(也可以选择vLLM):


1.首先安装Llama_cpp和huggingface工具:
pip install llama_cpp_python
pip install huggingface-hub
2.下载llama_cpp推理的gguf版本的模型:
huggingface-clidownloadm4r1/selfrag_llama2_7b-GGUFselfrag_llama2_7b.q4_k_m.gguf--local-dir./model--local-dir-use-symlinksFalse


3.运行如下简单的测试代码:
fromllama_cpp importLlama
_MODEL_KWARGS = {"logits_all": True, "n_ctx": 2048, "n_gpu_layers":200}
_GENERATE_KWARGS = {"temperature": 0.0,"top_p": 1.0,"max_tokens": 1024,"logprobs": 1000}

#模型
llm=Llama(model_path="./model/selfrag_llama2_7b.q4_k_m.gguf",**_MODEL_KWARGS)

#格式化Prompt,注意必须按照此格式输入问题和关联知识
defformat_prompt(input, paragraph=None):
prompt = "### Instruction:\n{0}\n\n### Response:\n".format(input)
ifparagraph isnotNone:
prompt += "[Retrieval]<paragraph>{0}</paragraph>".format(paragraph)
returnprompt

#测试两个问题,一个无需检索,一个需要检索知识
query_1 = "写一首歌颂母爱的小诗"
query_2 = "能否介绍下字节跳动的AI平台Coze?"
queries = [query_1, query_2]

#分别测试,并打印出结果(response); details用来查看更详细的tokens输出细节
forquery inqueries:
pred = llm(format_prompt(query),**_GENERATE_KWARGS)
print("\nResponse: {0}".format(pred["choices"][0]["text"]))
print(pred["choices"][0])
来看第一个问题的输出:
Response: Mother love, so pure and true,A bond that's stronger than any tie.[No Retrieval]You give your all, 【此处省略】......follow its owners everywhere.[Utility:5]


第一个问题是一个创作问题,并不涉及具体事实,显然无需检索额外知识。因此推理结果中带有[No Retrieval]的标记(红色部分)。


再看第二个问题的输出:


Response: Certainly![Retrieval]<paragraph>Coze is a platform.[Utility:5]


第二个问题是一个事实性问题。这里可以看到,在推理过程中,LLM会发现需要额外知识补充,就会输出[Retrieval]的标记(红色部分)。


4.针对第二个问题模拟带入检索知识,再次观察模型输出:
这里用paragraph模拟一段检索出来的知识,并在prompt中带入。只需要修改少量的代码即可(其他部分不变):
paragraph="""Coze是字节跳动的大模型应用一站式开发平台。"""
...
#注意此处把输入参数paragraph默认成上面的知识
defformat_prompt(input, paragraph=paragraph):
...
此时模型对第二个问题的输出如下:


Response:[Relevant]Coze is a platform developed by ByteDance, the parent company of TikTok, for building and deploying large-scale AI models.[Fully supported][Continue to Use Evidence]It provides an all-in-one development platform that includes tools for training, testing, and deploying AI models.[Utility:5]


可以看到,LLM根据带入的知识生成了输出,并且响应中带有自省token标记(红色部分)。比如包括了相关性[Relevant],响应支持度[Fully Supported],以及答案有用性[Utility:5],这些也都是后续需要进一步评分的指标。

02

ingFang SC";font-weight: bold;color: rgb(109, 178, 14);line-height: 41px;">构建Self-RAG应用

基于上面测试的微调模型(selfrag_llama2_7b)来简单构造一个上层应用,用来实现如下的完整RAG Flow:

有了前面的模型基础,这个应用实现本身并不复杂。其中相对复杂的部分是如何对多个增强生成的响应结果进行评分,从而选择“最优解”。这个评分算法在上一篇中已经介绍过:借助LLM输出中的一个特殊信息-- 每个位置输出的可能token及其概率值。一共有三个指标评分:

  • 知识相关度:检索的知识与输入问题的相关性。

  • 响应支持度:检索的知识对最后输出的支持程度。

  • 答案有用性:最后输出答案对输入问题的有用性。


上篇中已经给出了响应支持度评分的算法,而答案有用性与之类似,参考实现即可,此处不再列出。而知识相关度的计算比较简单:

#相关度计算:[Relevant]输出的概率占比
def _relevance_score(pred_log_probs: Dict[str, float]) -> float:
rel_prob = np.exp(float(pred_log_probs["[Relevant]"]))
irel_prob = np.exp(float(pred_log_probs["[Irrelevant]"]))
returnrel_prob / (rel_prob + irel_prob)

有了这三个评分的基础算法,再设计一个简单的查询引擎,大致结构如下:

【主测试程序】

主程序的逻辑很简单。我们直接构造几个简单的文本作为知识库;然后创建检索器(retriever)与生成器(llm)用来构造查询引擎;最后测试两个输入问题:

import os
fromllama_index.llms.llama_cpp importLlamaCPP
fromllama_index.core importDocument, VectorStoreIndex
fromllama_index.core.retrievers importVectorIndexRetriever
frompathlib importPath

#导入SelfRAGQueryEngine引擎
fromselfrag_queryengine importSelfRAGQueryEngine

#模型参数,注意打开logits_all参数
_MODEL_KWARGS = {"logits_all": True, "n_ctx": 2048, "n_gpu_layers": -1}
_GENERATE_KWARGS = {"temperature": 0.0,"top_p": 1.0,"max_tokens": 1000,"logprobs": 32016,}

# 下载的selfrag_llama2_7b模型的保存目录
download_dir = "../../model"

# 创建测试文档,此处直接用documents构建,方便观察
documents = [
Document(text="Xiaomi 14 is the latest smartphone released by Xiaomi. It adopts a new design concept, the body is lighter and thinner, equipped with the latest processor, and the performance is more powerful."),
"""此处省略了更多的Document对象"""
]

# 创建retriever
index = VectorStoreIndex.from_documents(documents)
retriever = VectorIndexRetriever(index=index,similarity_top_k=5)

# 创建llm(采用llama_cpp)
model_path = Path(download_dir) / "selfrag_llama2_7b.q4_k_m.gguf"
llm = LlamaCPP(model_path=str(model_path), model_kwargs=_MODEL_KWARGS, generate_kwargs=_GENERATE_KWARGS)

# 构造查询引擎,传入llm与retriever
query_engine = SelfRAGQueryEngine(llm, retriever)

# 查询一:无需检索的创作问题
response = query_engine.query("write a poem about beautiful sunset")

# 查询二:需要检索的事实性问题
response = query_engine.query("Tell me some truth about xiaomi 14 phone, especially about its battery and camera?")

【构建查询引擎】

这里代码中的核心组件是SelfRAGQueryEngine,其核心的query接口实现如下:

"""此处省略初始化代码"""defquery(self, query_str: str)-> str:
#调用模型生成
response = self.llm.complete(_format_prompt(query_str))
answer = response.text

#如果模型反馈需要检索
if"[Retrieval]"inanswer:

#检索多个相关知识
print_text("需要检索知识,开始检索...\n", color="blue")
documents = self.retriever.retrieve(query_str)
print_text(f"共检索到 {len(documents)}个相关知识\n", color="blue")

#用检索到的多个知识组装多个Prompt
paragraphs = [
_format_prompt(query_str, document.node.text) fordocument indocuments
]

#重新生成并评估每个结果的评分
print_text("=====开始:重新生成并评估====\n", color="blue")
llm_response_per_paragraph,paragraphs_final_score = \
self._regen_then_eval(paragraphs)
print_text("===结束:重新生成并评估====\n", color="blue")

#选择评分最高的答案
best_paragraph_id = max(
paragraphs_final_score, key=paragraphs_final_score.get
)
answer = llm_response_per_paragraph[best_paragraph_id]
print_text(f"已选择最佳答案: {answer}\n", color="blue")

else:
print_text("无需检索知识,直接输出答案\n",color="green")

#输出结果,此处需要去除答案中的特殊token
answer = _postprocess_answer(answer)
print_text(f"最终答案: {answer}\n", color="green")
returnstr(answer)


【实现_regen_then_eval】
这里有个重要方法是_regen_then_eval,用来对多个输入Prompt做生成与评分,最后返回响应及评分(评分算法参考上文说明):
def_regen_then_eval(self, paragraphs: List[str])->Tuple[Dict[int,str],Dict[int,float]]:
"""
运行评判模块,对给定的段落进行生成,并评分。
参数:
paragraphs (List[str]): 包含要评分的段落的列表。
返回:
Tuple[Dict[int,str],Dict[int,float]]: 包含生成的结果和评分。
"""
paragraphs_final_score = {}
llm_response_text = {}

forp_idx, paragraph inenumerate(paragraphs):
#循环生成多个响应
response = self.llm.complete(paragraph)
pred = response.raw
llm_response_text[p_idx] = response.text

#从raw信息中取得tokens概率相关信息
#top_logprobs保存了每个位置上输出每个token的概率
logprobs = pred["choices"][0]["logprobs"]
pred_log_probs = logprobs["top_logprobs"]

# 计算isRel分数,相关度为第一个token,直接传入0
isRel_score = _relevance_score(pred_log_probs[0])

# 计算isSup分数
isSup_score = _supported_score(logprobs["tokens"], pred_log_probs)

# 计算isUse分数
isUse_score = _useful_score(logprobs["tokens"], pred_log_probs)

#最终得分
paragraphs_final_score[p_idx] = (
isRel_score + isSup_score + 0.5* isUse_score
)

print_text(
f"输入: {paragraph}\n响应: {llm_response_text[p_idx]}\n评分: {paragraphs_final_score[p_idx]}\n",
color="blue",
)
print_text(
f"已完成 {p_idx + 1}/{len(paragraphs)}段落\n\n", color="blue"
)

returnllm_response_text, paragraphs_final_score
【测试结果】
这样就构建了一个简单的Self-RAG范式的应用,直接运行就可以看到上面两个测试问题的处理过程及区别:
问题一:

由于是个创作型的问题,因此llm认为无需检索,所以直接输出答案。

问题二:

这是个需要基于事实回答的问题,因此LLM认为需要检索。在检索知识后,应用通过循环重新生成并进行评分(此处只展示了第一个)。比如这里第一个知识段落生成的评分为1.767657...。在所有响应都被重新评估后,最终有个答案“脱颖而出”(即评分最高的答案):

不错,应用测试的输出符合对Self-RAG的预期。

ingFang SC";font-weight: bold;color: rgb(255, 255, 255);line-height: 22px;white-space: nowrap;word-break: break-word;">03

ingFang SC";font-weight: bold;color: rgb(109, 178, 14);line-height: 41px;">应用的优化思考

Self-RAG借助在模型层次的微调使得LLM自身具备了自我判断按需检索与自我反省的能力,在很大程度上减少了应用层面的复杂性,且不会降低模型自身的能力。当然,我们完全可以结合RAG其他范式在不同环节的优化方法,来让Self-RAG工作的更加完美。
在上面的原型应用中,有一个比较明显的优化策略来自于这里的Self-RAG的多次生成是基于知识检索出的top_K文档逐个生成,但是在实际测试中我们发现有几个问题:
  • 由于检索出的文档已经过了语义相似度排序,所以生成的结果评分很多时候会与文档排序一致,这就丧失了评估的意义
  • 由于实际应用中知识结构的复杂性,很多时候需要把多个知识一次输入LLM做生成,以给予LLM更完整的“参考”
  • 没有采用并行的生成方式


因此,如果想充分利用Self-RAG的自我评估能力,可以能够根据实际需要优化这里检索(retriever)策略。比如做多次知识检索,并针对多次检索的结果分别做生成与评估;而不是针对一次检索的多个文档做生成评估,这样既可以给予LLM更多的上下文知识,也能利用Self-RAG的自省机制在多次生成中获取质量最高的输出。实现多次检索的策略可以更加灵活,比如:
  • 借助查询Rewrite后再次检索知识文档,可使用不同的Rewrite算法
  • 使用不同的检索算法(比如关键词检索与语义检索)获得不同的知识文档


  • 检索后使用不同的Rerank算法做知识文档的重排后进行多次生成


更多的优化方法与策略还需要在实际应用中不断发现与完善。

04

模型的微调

上面我们依赖于selfrag_llama2_7b这个微调模型展开了一系列的测试,最后简单说说如何训练这样的模型。
【训练目标】
让LLM能够生成带有自省tokens(比如[Irrelevant]或者[Relevant])的文本。
【训练方法】
为了达到上述目标,Self-RAG需要训练两个模型,一个是评估模型,一个是生成模型,这两个模型都需要用自省tokens来扩展词汇表并进行训练。参考Self-RAG的方案介绍,整个过程分为两个阶段:
  1. 评估模型训练
评估模型的训练是为了能够根据指令与输入,直接生成不同类型的自省tokens(比如[Irrelevant]或者[Relevant])。因此需要大量的输入文本并标记好对应的自省token,这很显然无法用人工来完成,因此Self-RAG借助了GPT4来批量生成训练数据。所以这个阶段的步骤是:
  • 训练数据创建:使用 GPT4来帮助生成训练数据。

  • 评估模型训练:使用生成的训练数据来训练评估模型。

2.生成模型训练

在评估模型训练完成后,此时会借助检索与训练好的评估模型,来对大量的输入-输出文本对插入自省token,形成“增强后”的输出文本,进而作为生成模型的训练数据。注意看下图中的两个例子,右边的例子中借助评估模型的判断,发现需要检索,因此插入了[Retrieve],[Relavant]等标记token,据此形成了一条新的训练数据。

训练数据准备完成后,最后再用来对模型进行训练,让模型不仅能够预测下一个内容的token,还能预测自省的token标记。

具体的训练数据生成代码、微调脚本等可以参考Github上Self-RAG项目。


ingFang SC";font-weight: bold;color: rgb(84, 2, 2);line-height: 22px;letter-spacing: 2px;">END




回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

链载AI是专业的生成式人工智能教程平台。提供Stable Diffusion、Midjourney AI绘画教程,Suno AI音乐生成指南,以及Runway、Pika等AI视频制作与动画生成实战案例。从提示词编写到参数调整,手把手助您从入门到精通。
  • 官方手机版

  • 微信公众号

  • 商务合作

  • Powered by Discuz! X3.5 | Copyright © 2025-2025. | 链载Ai
  • 桂ICP备2024021734号 | 营业执照 | |广西笔趣文化传媒有限公司|| QQ