链载Ai

标题: 专利大模型的实践与知识问答探索 [打印本页]

作者: 链载Ai    时间: 昨天 09:37
标题: 专利大模型的实践与知识问答探索



ingFang SC", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;letter-spacing: 1.5px;color: rgb(0, 0, 0);font-size: 14px;text-align: justify;visibility: visible;line-height: 2em;">导读本次分享主题为专利大模型的实践经验及问答探索。

主要内容包括以下四大部分:


ingFang SC", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;letter-spacing: 1.5px;line-height: 2em;visibility: visible;">1.专利大模型背景介绍

2.训练过程

ingFang SC", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;letter-spacing: 1.5px;line-height: 2em;">3.专利搜索与大模型结合

ingFang SC", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;letter-spacing: 1.5px;line-height: 2em;">4.挑战和展望

分享嘉宾|王为磊 智慧芽信息科技(苏州)有限公司 搜索与算法总监;首席科学家

编辑整理|吴叶国

内容校对|李瑶

出品社区|DataFun


01

专利大模型背景介绍



智慧芽一直致力于为科技创新和知识产权领域提供信息服务。在小型模型时代(如 Bert),参数量较少,智能理解方面存在局限性。因此,在着手开发大模型之前,智慧芽深入思考了领域聚焦的重要性。在知识产权领域,专利检索、专利对比、标引工作以及专利撰写等方面的产品的 AI 迭代存在广泛需求,而且在行业中存在着巨大的突破空间。

针对这些问题,智慧芽从四个层次来设计和构建垂域大模型:

总体来说,面向研发场景的垂直领域模型需要具备差异化的海量数据,并结合小型模型以提高效率,从多个方面解决实际生产问题。主要的挑战来自于数据的高精度结构化提取和产品化应用。因为最终还需要将这些问题的解决方案组合起来形成良性循环。


02



训练过程


1. 专利大模型:以业务为导向的不断迭代

智慧芽专利大模型基于开源大模型经历了三个版本的迭代。是基于 llama2 和 mixtral8*7B 进行的继续训练和后续步骤。在整个大模型训练链路中,除了通用大模型的 Pre-train 环节外,智慧芽主要完成了后续的 CPT(continue pre-train)、SFT、Reward、DPO(PPO)等工作。


在训练过程中,智慧芽重点关注以下几个方面:

接下来将具体介绍智慧芽专利大模型在数据、算法、评估等方面的实践。



2. 专利大模型:数据

首先来看数据集的大小。从上图中可以看到,大模型数据集在不断变大。最早的 Bert 使用了 3.7B tokens;GPT-3 使用了 500B tokens;LLaMA 1 使用了 1.4T tokens;LLaMA 2 使用了 2T tokens。


智慧芽的专利大模型数据集也经历了从小到大的过程。在实践过程中,数据集变大后,模型的能力提升是明显可感知的。


再来看数据配方。现在许多开源和闭源的大模型都公布了它们的数据配方,这些数据来源包括网络爬虫、代码、维基百科、书籍、论文、新闻等。每个模型的数据集配比都非常讲究。例如,LLaMA 大模型的数据集配比非常杂且全面;而 OpenAI 的 GPT-3 则有自己的特色,强调代码和书籍的训练。这些配比也是大量实验中得出的结论。


智慧芽为了完成大模型训练的下游任务,结合自身的垂域数据集摸索出了专利、论文以及行业领域中独有数据(包括检索报告、书籍等)的配方。此外,也加入了一定量 Common Sense 的数据,因为在连续预训练的过程中会出现严重遗忘,必须有Common Sense 数据的支持,以防止过度遗忘的发生。专利、书籍和论文是智慧芽未来将继续深挖的一个方向。


微软 Phi-1 和最新版本 Phi-1.5 的数据配方以 Textbooks 和 Code为主,使用了较小的参数量,却实现了非常出色的推理能力。这也体现了数据配方和数据质量对模型能力的重要性。GPT-3 的数据配方特点如上图右上所示,可以看到其前三个数据集都以 Text 为主,同时也各有特点,比如第一个数据集以 books 和 journals 为主,第二个数据集也以 books 为主,第三个数据集则是维基百科。GPT-3 大模型性能的优秀和稳定性与数据集的配方密切相关。

3. 专利大模型:算法是一系列模型

算法涉及一系列模型,下面将分四个方面进行介绍。

4. SFT:Instruction Tuning unlock pretrain model

SFT 入门非常容易,但要精通却相当困难,需要关注许多细节。在预训练完成后,如何有效利用 SFT 成为解锁大模型知识的关键步骤。如果 SFT 做得不好,那么 Reward 模型就无法选择出好的答案,使用 PPO 也无法获得好的结果,即使进行 100 次采样也是无济于事,会导致强化学习失效。因此,SFT 扮演着非常重要的角色。接下来将从三个方面进行分享:

(1)数据。这里可分为三类数据:

(2)训练策略



如果只使用上述三个数据集中的某一个,例如只使用 Chat 数据,在解决下游任务时可能会导致偏差,因此需要特别注意协调使用。



上图中左下方的图表展示了在聊天和问答环境下,基于 LLaMA(7B)和LLaMA(13B)模型的指令调优实验结果(均为单轮对话)。实验中,以在 Self-Instruct-52K 数据集上微调的 LLaMA(7B)/(13B)模型为基准,采用了四种指令改进策略:增加复杂性、增加多样性、平衡难度和扩展指令数量。下面的三列数据展示了各种指令调优的结果:

若要提高单个任务的精度,也有许多方法可供选择,例如扩大数据集规模、增强多样性。此外,如果 7B 模型不足以满足需求,可以考虑使用 13B 模型,甚至 70B 模型。



(3)数据三核心:数量、质量和多样性



数量:SFT 训练数据数量的增加存在双降的规律。当数据量为几千条的时候,训练的 loss 会快速下降;随着后续任务的不兼容或产品化需求的提出,数据量会不断增加,此过程中损失也会相应上升。这一问题在智慧芽的实际生产中也经常遇到。以下是几种解决思路:

质量:SFT 数据的质量至关重要。为了确保数据质量,需要进行指标化管理,包括输入长度、输出长度、Reward score、Perplexity、MTLD、KNN-i、Unieval-naturalness、Unieval-coherence、Unieval-understandability 等各种指标。



多样性:在 SFT 中,多样性非常重要。除了需要增加更多的指标外,还有其他一些影响多样性的问题,例如各种类型数据的配比应该合理;多语言配置支持,智慧芽的业务需要支持三种语言;SFT 数据的长短等。例如,WizardLM 的一篇论文介绍了如何增加指令的多样性和复杂性,通过从广度和深度上进行扩展,并将 CoT 的数据融入其中进行自动扩展,以构建更复杂、更多样的执行数据。这都是增加多样性的有效方法。

5. 专利大模型:评估

评估任何大模型都是相当有挑战的。

6. 专利抽取:抗体轻重链提取+抗原配对信息

接下来分享应用专利大模型能够解决的实际业务问题。



上图显示了专利抽取的需求,一个生物医药客户需要从专利中获取抗体抗原的配对信息。这涉及到轻链、重链以及它们对应的抗原等关键数据,在生物医药领域至关重要。特别是对于大型药物公司,其核心药物都受到专利保护,因此准确提取这些信息至关重要。然而,在过去,数据集的准确性和提取都需要人工干预。要实现客户的需求,使用纯人工方法完成需时 5 个月;使用小型模型结合人工标注(并由人工审核)需时 2 个月;而通过专利大模型,经过 Lora 微调、全参数微调、指令微调等方案,仅需 4 天即可完成任务。

7. 技术方案对比:抗体抗原实验结果

上图中可以看到,专利大模型(PatentGPT)明显胜出并解决了该业务问题。但并不是所有的实验都有这么好的效果,但是专利大模型打开了一扇窗,在有些场景下可以解决一些小模型无法解决的问题,特别是在长上下文理解等任务方面。
03


专利搜索与大模型结合


在落地过程中,专利大模型一定需要与搜索进行结合。



1. 为什么要 RAG ( Retrieval Augmented generation )

可以从两个方面解释其原因:



(1)在模型层面:

(2)在业务层面:

2.RAG 在智慧芽的实践架构:找到答案+探索?!

以下是 RAG 实现流程的概述。比如先问一个问题,“介绍计算机学院的课程”,获得结果后,再问”电子学院呢”,在该流程中,除了必须的安全判断步骤外,主要分为以下几个步骤:

此外,RAG 所使用的大模型也需要基于搜索结果进行 SFT 和强化学习。



3. RAG 挑战:一半是工程,一半是算法突破

在 RAG 的实施过程中,上图中展示了其中一个例子:“发烧多少度需要吃药”,模型给出了回答,接着问:“儿童呢”这意味着询问小孩发烧多少度需要吃药。系统首先需要确定是否涉及多轮对话,然后判断是否需要搜索。这个例子中模型判断是多轮对话,Query 需要进行改写;如果不是,可以直接利用当前问题进行搜索。在实践中面临的挑战包括:

04



挑战和展望


关于未来方向的一些思考

在实践过程中,智慧芽进行了以下思考:








欢迎光临 链载Ai (https://www.lianzai.com/) Powered by Discuz! X3.5