链载Ai

标题: AGI专业领域挑战科普,RAFT(检索增强微调)改进这一切 [打印本页]

作者: 链载Ai    时间: 4 小时前
标题: AGI专业领域挑战科普,RAFT(检索增强微调)改进这一切

“针对特定领域的问答的微调和RAG方法”

很多人有疑问有了大模型,类似ChatGPT,kimi,为什么还需要受到专业领域限制。不都是知识管理,图文生成么?另外有时候发现大模型答非所问,出现幻觉或者胡编乱造。

随着大型语言模型的应用扩展到专业领域,对高效且有效的适应技术的需求变得越来越重要。RAFT(检索增强微调)是一种新颖的方法,结合了检索增强生成 (RAG) 和微调的优点,专为特定领域的问答任务量身定制。

专业领域的挑战

虽然LLMs(大模型)接受过大量数据的预先培训,但他们在医学研究、法律文档或企业特定知识库等专业领域表现良好的能力往往受到限制。出现这种限制是因为预训练数据可能无法充分代表这些专业领域的细微差别和复杂性。为了应对这一挑战,研究人员传统上采用两种主要技术:检索增强生成(RAG)和微调。

什么是RAG?

检索增强生成(RAG)通过融合基于检索和基于生成的方法的优势,代表了自然语言处理(NLP)的范式转变。白话就是一种使LLMs能够在推理过程中访问和利用外部知识源的技术。

RAG

RAG 包含三个核心步骤:

根据图上描述,通过将实时数据检索集成到生成过程中来实现这一点,从而使模型的输出更加准确和最新。白话就是说。RAG检索过程从用户的查询开始,分析查询并从外部数据库获取相关信息,这里需要数据库来自企业自身的数据库,企业平时的文档和资料有这个数据库进行整理备份。通过分析得到数据映射,提取完后。生成阶段将这些输入合成为连贯的叙述或答案。增强通过添加上下文或调整连贯性和相关性来完善生成。

RAG的关键工作原理:

优点:

局限性:

总结:

RAG好处在于数据私有化,但是需要自身实时更新数据源,这种对于企业内部或者隐私数据比较友好。但是回到特定领域上,医学,法学,数学,教育等RAG没有足够多数据进行更新响应。

什么是微调(Fine-tune)?

微调是通过在较小的特定于任务的数据集上进一步训练,使预训练的LLM适应特定的任务或领域。这种方法允许模型学习模式并将其输出与所需的任务或领域保持一致。虽然微调可以提高模型的性能,但它通常无法有效地整合外部知识源或解释推理过程中的检索缺陷。

监督微调

总结:

RAG 和 Fine-tuning 都是增强NLP模型的好策略,但一切都取决于我们要执行什么类型的任务。请记住,这两种策略都是从预训练模型开始的,RAG不存在任何过拟合问题,但会生成有偏差的输出。另一方面,微调不会产生有偏差的数据,但如果我们从错误的预训练模型开始,那么微调就变得毫无用处。最终,RAG 和微调之间的选择取决于当前的具体任务和要求。

RAFT又是什么?

RAFT和RAG是两个不同的模型,它们并不是相同的模型,也不是改进版本。RAFT更加注重于图结构的建模和特征提取,而RAG则更注重于利用检索到的外部信息来辅助生成任务。RAFT叫做检索感知微调,是一种专为语言模型量身定制的创新训练方法,旨在提高其在特定领域任务中的表现,特别是开卷考试。RAFT与标准Fine-tune不同,它准备的训练数据包含相关和不相关文档的问题,以及从相关文本得出的思想链式答案。该方法旨在提高模型不仅回忆信息的能力,而且还提高从提供的内容中推理和得出答案的能力。

本质上,RAFT对语言模型进行了微调,使其能够更加熟练地完成涉及阅读理解和从一组文档中提取知识的任务。通过包含答案训练或者不包含答案进行训练,模型学会更有效地辨别和利用相关信息。

训练准备

RAFT的训练过程涉及到一部分数据包含与答案直接相关的预言文档,而其余数据仅包含干扰文档。微调鼓励模型学习何时依赖其内部知识(类似于记忆)以及何时从所提供的上下文中提取信息。回到上图而RAFT的训练方案还强调推理过程的生成,这不仅有助于形成答案,还可以引用来源,类似于人类通过引用他们所阅读的材料来证明自己的反应合理。这种方法不仅为 RAG(检索增强生成)设置准备模型,其中必须考虑K个检索文档或者引用,而且还确保模型的训练独立于所使用的检索器,从而允许跨不同检索系统灵活应用。
这种方法有多种用途:

RAFT 的另一个关键方面是将思想链推理纳入训练过程。RAFT 不是简单地提供问题和答案对,而是生成详细的推理解释,其中包括相关文档的逐字引用。这些解释以思想链的形式呈现,指导模型完成得出正确答案所需的逻辑步骤。通过在这些推理链上训练模型,RAFT鼓励发展强大的推理能力,并增强模型对如何有效利用外部知识源的理解。

这样产生的结果具有置信度,权威性,实时性。这里我这样说比如2024以前知识大模型都了解,一旦24年中某个事件发生了变化,大模型就还停留在以前知识体系。举个例子小日子地震,造成财产损失5亿,但后续逐步统计完已经在27年了,费用超过6亿,那么后续费用会通过这个RAFT重新覆盖已有的5亿。

评估与结果

RAFT论文的作者对各种数据集进行了广泛的评估,包括 PubMed(生物医学研究)、HotpotQA(开放域问答)和 Gorilla APIBench(代码生成)。他们的结果表明,RAFT始终优于基线,例如使用和不使用RAG的特定领域微调,以及使用RAG的GPT-3.5等更大的模型。

回到上图,在HuggingFace数据集上,RAFT的准确率达到74%,比特定领域微调(DSF) 显著提高了31.41%,比使用RAG的GPT-3.5显著提高了44.92%。同样,在HotpotQA数据集上,与DSF相比,RAFT的准确率提高了28.9%。

实际应用和未来方向

RAFT技术对广泛的实际应用具有重要意义,包括:
随着这一领域研究的继续,我们可以期待RAFT技术的进一步进步和完善。未来潜在的方向包括:

结论

RAFT代表了语言模型领域特定问答领域的重大飞跃。通过和谐地融合检索增强生成和微调的优势,RAFT使LLMs能够有效利用外部知识源,同时将其输出与特定领域的模式和偏好保持一致。通过其创新的训练数据管理、思想链推理的结合以及对检索缺陷的稳健性,RAFT为寻求释放LLMs在专业领域的全部潜力的组织和研究人员提供了强大的解决方案。让我们离权威性的通用大模型更近了一步。






欢迎光临 链载Ai (https://www.lianzai.com/) Powered by Discuz! X3.5