链载Ai

标题: 特定领域的模型微调是否有意义?BioRAG,一个大型 RAG 实际应用案例告诉您 [打印本页]

作者: 链载Ai    时间: 2 小时前
标题: 特定领域的模型微调是否有意义?BioRAG,一个大型 RAG 实际应用案例告诉您

特定领域的模型微调是否有意义?BioRAG,一个大型 RAG 实际应用案例告诉您

发布时间:2024 年 08 月 02 日

RAG

BioRAG: A RAG-LLM Framework for Biological Question Reasoning

生命科学领域的问答系统面临快速发现、见解演变及知识实体复杂交互的挑战,需维护全面知识库与精准检索。为此,我们推出 BioRAG,结合大型语言模型的检索增强生成框架。首先,我们解析、索引并分割 2200 万篇论文,构建基础知识库,并训练特定领域嵌入模型。通过融入领域知识层次,我们优化向量检索,解析查询与上下文间复杂关系。对于时效性强的查询,BioRAG 拆解问题,借助搜索引擎进行迭代检索与推理。实验证明,BioRAG 在多项生命科学问答任务中表现卓越,超越了微调 LLM、集成搜索引擎的 LLM 及其他科学 RAG 框架。

https://arxiv.org/abs/2408.01107

ingFang SC", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;font-size: 14px;margin: 1.5em 8px;letter-spacing: 0.1em;color: rgb(63, 63, 63);">扫码加入 RAG 社群



今天这篇文章介绍的是一个生物学大型知识推理系统,虽然这个系统介绍的是生物学领域的,但是这个思路是可以拓展到其他领域的大型知识推理系统建设的。

1. 生物学大型知识推理系统的现状和问题

生物学领域的大型知识推理系统可分为两个主流(如上图(a-b)所示)。

基于上述讨论,总结了构建高效生物学问题推理系统的三个挑战:

为应对上述挑战,作者提出了 BioRAG:一个与大型语言模型相集成的新型检索增强生成框架,用于生物问题推理。

2. 什么是 BioRAG

首先对生物领域的大量研究文章进行解析、索引和分割,并构建高质量的训练语料库。

接着通过将预先构建的研究层级结构与嵌入模型相结合,以实现准确的上下文检索。

为应对新兴的生物学知识,BioRAG 能够从搜索引擎、现有的特定领域工具或已索引的研究文章中自适应地选择知识源。

一旦框架判定已收集到足够的信息,它将依据推理材料生成答案。

2.1 内部生物信息源

在生物问答系统中,高质量的特定领域语料库对于丰富信息源和增强嵌入模型至关重要。

为达成此目标,从国家生物技术信息中心(NCBI)维护的全球生物医学文章数据库中提取研究论文。汇集了自 20 世纪 50 年代至今超过 3700 万篇科学引文和摘要,涵盖了临床医学、分子生物学等广泛的生物医学领域。

基于此,构建了一个本地化的高品质生物载体数据库,以支持高效、有效的查询处理与检索操作。此数据库作为关键资源,有助于快速且精准地获取相关生物医学信息,显著增强了 BioRAG 框架处理复杂生物问题的能力。

2.2 外部信息源

由于生物研究发展迅速,不断融合新发现,所以外部生物学知识对于生物推理而言至关重要。为了解决这个问题,引入了两个外部信息源。

2.2.1 生物数据中心

BioRAG 整合了以下数据库,每个数据库在更广泛的生物分析情境中都具有独特用途:

2.2.2 搜索引擎

为确保获取最新的讨论和进展,BioRAG 整合了多种搜索引擎,包括谷歌、必应、arXiv、维基媒体和 Crossref。每个平台都对信息的聚合有独特贡献:

2.3 自评估信息检索器

BioRAG 整合了一种自我评估机制,用以持续评估其所收集信息的充分性与相关性。

2.4 提示词

为最大限度发挥检索到的语料库和知识的效用,在 BioRAG 中专门设计了一系列提示词。提示详细定义如下:

此外,为专业生物学工具和数据库编制了一系列操作手册,目的是最大限度地发挥它们的能力。具体操作说明如下:

3 效果对比分析

3.1 生物学相关任务的成果

为验证所提模型的有效性,首先开展生物学问答任务。成果展示于上表:

3.2 专业生物学推理成果

GeneTuring 数据集囊括了更多专业生物学问题,相应的推理过程极度依赖于技术性生物学文献和描述。成果如上表。

由于该数据集未包含训练数据,BioLLMs 未经微调直接运行,所以它们的表现不佳,反映出泛化能力的不足。

在此数据集中,作者专注于分析 GeneGPT、NewBing 和 BioRAG:

3.3 消融分析

为评估 BioRAG 各个组件的贡献,借助 GeneTuring 数据集展开了广泛的消融研究,有系统地移除各个组件,以衡量其在各类任务中的性能影响。

-(2)组件贡献:在组件当中,自我评估机制对于在大多数任务中维持高精度至关重要。MeSH 过滤器和查询重写也能提升性能,但其缺失不像自我评估的移除那样严重降低结果。

-(3)基础语言模型的影响:对比两个基础模型,Llama-3-70B 在所有任务中通常优于 Llama-3-8B,表明更大的模型规模有助于更好地处理复杂的生物查询。这些发现凸显了在 BioRAG 框架内融合各种数据源和高级组件对于在生物问题推理任务中达成最优性能的重要性。通过了解每个组件的贡献,能够针对不同的任务和数据集更好地优化 BioRAG。

3.4 案例研究

为了更直观地对比 BioRAG 与基线之间的推理差异,选取了三个典型的案例研究。

首先提供一个案例研究来展示 BioRAG 的工作流程(如上图)。选自大学生物学数据集。BioRAG 进行了两次自我评估:首次它从网络搜索一般性信息起步,但结果不足以支撑回答问题。于是,BioRAG 进行了第二次自我评估,并调用了更专业的 PubMed 数据库。此次的结果准确且足以支撑回答问题,因此 BioRAG 依据结果给出最终答案。

第二个案例研究在 GeneTuring 数据集中的基因别名任务上开展(如上图)。此任务的挑战在于基因名称的变体。NewBing 从维基媒体获取响应。然而,维基媒体不够专业,无法为输入基因提供别名,致使答案有误。

GeneGPT 的提示过于繁复,且与当前任务无关。更甚者,其 NCBI API 仅返回基因的 ID 而非名称,导致大型语言模型(LLM)无法识别,最终得出了错误结论。

相比之下,BioRAG 采用模糊查询技术,能够容忍更高的误差,同时获取更多相关反馈。每个反馈结果都详尽地包含了基因的别名等相关信息,使得 BioRAG 能够准确回答。

在 GeneTuring 数据集中的基因-疾病关联任务上,进行了第三次案例研究,如上图所示。这项任务的逻辑推理需要依赖基因数据库和相关的 PubMed 文献。PubMed 的摘要提供了详尽的基因与疾病之间的联系。

NewBing 从 Geekymedics 网站获取了回应,但该网站虽提供广泛的医学信息,却未能提供基因-疾病关联所需的精确细节。因此,NewBing 由于依赖非专业资源,其回答并不准确。

GeneGPT 错误地选择了 NCBI 的 API,该 API 返回的是复杂且冗长的 HTML 页面,充斥着大量无关信息。在这些含糊不清的信息背景下,GeneGPT 给出了错误的答案。

在 BioRAG 的推理过程中,它综合运用了基因数据库、本地 PubMed 数据库和网络搜索等多种工具,以收集并相互验证与 B 细胞免疫缺陷相关的基因信息。这一过程涵盖了查询预处理、执行搜索以及在每个步骤中进行自我评估,确保了结果的全面性和准确性。BioRAG 的推理过程是深入细致的,它整合了各种数据源,以确认特定基因与 B 细胞免疫缺陷之间的联系。







欢迎光临 链载Ai (https://www.lianzai.com/) Powered by Discuz! X3.5