链载Ai

标题: 20 分钟带你搞懂 LLMOps !! [打印本页]

作者: 链载Ai    时间: 昨天 09:48
标题: 20 分钟带你搞懂 LLMOps !!

ingFang SC", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;letter-spacing: 1.5px;color: rgb(0, 0, 0);font-size: 14px;text-align: justify;visibility: visible;line-height: 2em;">导读本文将介绍LLMOps 大模型。

主要内容包括以下几个部分:


ingFang SC", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;letter-spacing: 1.5px;line-height: 2em;visibility: visible;">1.LLMOps 的定义

2.LLM 微调技术

ingFang SC", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;letter-spacing: 1.5px;line-height: 2em;">3.LLM 应用构建架构

ingFang SC", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;letter-spacing: 1.5px;line-height: 2em;">4.LLM 应用构建难点

ingFang SC", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;letter-spacing: 1.5px;line-height: 2em;">5.LLM 应用解决方案

分享嘉宾|邹晓东 上海深擎信息科技有限公司 架构leader

编辑整理|陈业利

内容校对|李瑶

出品社区|DataFun


01

LLMOps 的定义



LLMOps 的概念可以分解为 LLM 和 Ops 两部分,其中 LLM 是指大语言模型,即大模型;Ops 则是指平台和工具。LLMOps 的完整定义是基于大模型的应用程序的生命周期管理平台或者工具。


大模型的构建主要分为三个阶段:
大模型应用平台主要关注的是模型微调和应用开发阶段。


大模型应用的生命周期包括开发、部署、配置和运维。我们着重提出了配置的阶段,即 prompt engine 提示工程。与传统的应用程序不同,配置阶段在大模型里面是非常重要非常核心的阶段。


02


LLM 微调技术


接下来介绍大模型微调技术。在 Bert 出现之后,模型微调技术广泛流行,即固定预训练模型权重,根据具体任务在特定场景进行微调。



如上图右侧展示了各类开源大模型在特定领域数据进行加权设计之后,通过增量微调技术,产生的特定领域模型的过程。这个过程是循环迭代,循环增强的。不停地对各个领域的数据进行清洗补充之后,提升特定领域模型的效果,产生更强的模型。


目前使用的微调技术通常被称作 PEFT,参数高效微调技术。这个技术在尽可能减少所需的参数和计算资源的情况下,实现对预训练语言模型的有效微调,解决了传统微调技术需要大量资源的问题。


1. 基座大模型概述


在介绍具体的微调技术之前,先对基座大模型进行简单的介绍。



目前的基座大模型主要有三种技术路线:
追溯其发展历史,在 BERT 于 18 年提出之时,大模型真正开始了流行,那个时候流行的都是与 BERT 相似的 Encoder-Only 的架构,在 19 年基本上是独霸江湖。后来,谷歌在 19 年提出了 T5 模型,这个模型主要是为了解决 Text-to-Text 的统一框架结构,取得了比较好的结果,引领了 encoder 到 decoder 的新一轮变革。在 20 年,随着 GPT3 的出现,Decoder-Only 架构已经开始慢慢变得枝繁叶茂。到 22 年的 ChatGPT 横空出世,Decoder-Only 目前看起来大有一统江湖之势。


先看下三种架构的主要区别:

2. PEFT



回到大模型的微调技术上,目前主要的微调技术包括以下几种:


(1)Adapter Tuning


Adapter Tuning 的方式就是新增 adapter 的层嵌入 Transformer 的结构里面,在训练时固定住原来的预训练模型参数不变,只对新增的层进行微调。其优点是在只额外增加 3.6% 的参数规模下就相当于做了一次完整的 finetune。


(2)Prefix Tuning


这是前缀的策略模式,在输入的 token 之前先构造一段任务相关的虚拟 token 作为前缀,然后在训练的时候只更新前缀部分,在 transformer 里面,其他部分是固定的,相比原来的 finetune,对于不同的任务只需要不同的 prefix 就可以保证不同的训练效果。


(3)Prompt Tuning


这是前缀 Prefix Tuning 的一个简化版本,只要在输入层加入 prompt tokens,并不需要加入 MLP 进行调整来解决比较难训练的问题。在这种情况下,很多时候只需要调整最上面的一层。这是现在常用的一种方式,只需要训练模型足够强大,Prompt Tuning 的结果会越来越接近于 Fine-Tuning。


(4)P-Tuning


P-Tuning 与 Prompt Tuning 的区别在于它将 prompt 层换成了 embedding,embedding 在实际上表应能力更强,它的优点就是微调参数只有 0.65%,比之前的微调技术参数更少。


(5)LoRA


LoRA 是在整体的微调中在涉及矩阵相乘的模块引入 a、b 两个低秩矩阵去模拟 Full-finetune,也就是全微调的逻辑。这样做的好处在于它跟之前的所有推理方式都是正交的,在推理阶段不会引入额外的计算量。


03


LLM 应用构建架构


了解了当前主要的微调技术,接下来介绍 LLMOps 的核心部分,即大模型应用构建架构。



大模型平台需要为大模型应用的构建提供便利的组件,以及具体的范式,提供快速搭建应用的能力,包括开发、部署、运维等。


在了解大模型应用如何构建之前,首先需要知道大模型的四个缺点:
基于此,大模型应用的主要构建逻辑就是对大模型原生能力的体现,使用问题 question、主题 topic 或者文档 Doc,根据 prompt 与大模型交互产生需要的内容。这里包括问答、改写、文档生成,以及知识推理,都可以使用大模型原生的能力。但大模型无法自动获取新的能力,也没办法知道私有化的数据。我们需要引入一个范式(RAG 检索增强),检索增强的生成是基于本地的知识库。为了增强它的语言理解,通常会使用如向量数据库的方式来构建。在数据准备阶段,需要引入以下组件:

04


LLM应用构建难点



大模型的应用天生是 Agent 的,也就是智能体,这是大模型应用搭建的核心方向,这既是重点也是难点。对于智能体来说,大模型的核心是完成对话和推理的任务,它具备一定的自主行为,需要以下的几个核心部件:

1. 常见 Agent 技术



前文中提到了 agent,agent 主要包含以下几种类型:


第一种是自主式智能体。自主式智能体是指根据指令或者引导自动完成任务,达成目标结果,明确工具属性的一个智能体。目前主要的项目如:
第二种是生存式智能体,这种智能体是模拟人类具备记忆和自主决策能力。但不是以服务人类为目标,而是以模仿为目标,这里面的优秀项目如:

2. 技术难点



Agent 在真正的落地过程中会碰到如下 5 个难点:

05


LLM 应用解决方案


针对以上难点,我们提出了相应的解决方案。



针对可靠性、稳定性问题。我们有称为 Prompt IDE 的解决方案,它的核心逻辑是为我们的提示词建立一个稳定可靠的解决方案。Prompt IDE 中文名可以称为提示词工作区,主要目的是为了保证与大模型交互的提示词,最终能够生成一个稳定可靠的版本,其核心能力包括:
参数化模板的作用主要是为了扩展或者批量量产数据,它需要支持参数化模板,能够自由配置替换参数,提升 Prompt 场景的应用效率。如上图中的示例,其中有一些参数,比如职位、知识领域、新闻风格和目标人群,可以产生比如 100 条的评测数据,会列出每个职位或者资质领域,再整体评估这个参数化模板的功能或者效果。


不同大模型针对于指令或者具体的一些参数会有不一样的响应结果。我们通常调试就是在 prompt 里面加一些指令性的设置,或者在最后的参数随机性上做一些调试,这需要我们能够灵活地在不同模型下快速获得相应的结果来保证写 Prompt 的效率。


大模型的调优并不是线性的,也不是全能的。我们在不同版本的调优过程中可能会发现 a 版本对于 a 任务表现比较好,b 版本是在 a 版本的基础上进行改良,针对于 a 任务确实效果更好,但是对于 b 任务来说,效果可能反而降低了。在这种情况下,需要对于不同场景产生不同版本来进行沉淀。


由于 Prompt 的不稳定,不能根据一条数据就判定 Prompt 的好坏,而是需要 100 条或者 200 条等的批量数据发起批量调用,根据结果做标注。根据优质结果的占比,来更科学地评价 Prompt。



针对于成本和增效的方案,主要是一键部署和监控:


一键部署主要是指大模型应用平台能够让用户快速构建应用上线,并且能够在线调优实时部署整个 SOP 过程中获得比较好的体验,这就需要具备以下核心功能:

针对线上的效果,我们需要做到效果的监控和成本的监控,包括:

以上就是本次分享的内容,谢谢大家。

分享嘉宾

INTRODUCTION


邹晓东

上海深擎信息科技有限公司

架构leader

邹晓东,硕士毕业于中国科学院光电研究院,现任深擎科技架构团队负责人。目前主要负责深擎 MLOps 机器学习平台和 LLMOps 大模型应用平台的设计研发工作。

往期推荐

Agent开发者坦白:窘境中前行
初识AI Agent——以大模型为核心的智能体
AI+BI:结合大语言模型实现对话式的智能报表系统
AI+BI第二弹:QuickBI已支持智能搭建&智能问数
2024 年,基于大模型的 Agent 如何在企业落地?
CoT 让 LLMs 更聪明






欢迎光临 链载Ai (https://www.lianzai.com/) Powered by Discuz! X3.5