链载Ai

标题: 亚马逊云科技:LLMOps驱动生成式 AI 应用的运营化 [打印本页]

作者: 链载Ai    时间: 前天 17:00
标题: 亚马逊云科技:LLMOps驱动生成式 AI 应用的运营化

导读生成式 AI 的应用与大模型的开发是一个复杂的过程,涉及从模型选择、微调到部署和监控的全生命周期管理。通过精细化的角色划分,提供者负责构建基础大模型,调优者进行行业定制化优化,消费者则在此基础上应用模型解决实际问题。技术上,检索增强生成(RAG)和高效微调(如 PEFT)等方法有助于提升模型的准确性和适应性。亚马逊云科技的生成式 AI 服务通过简化的 API 接口,支持用户快速调用和定制大模型,提供持续优化和监控功能,确保模型在实际应用中的稳定性和效果。整个流程需要严格的评估、反馈和优化,才能推动生成式 AI 在各行业中的有效落地和持续改进。

本次分享的主要内容包括:


1.生成式 AI 用例

2.MLOps 与 LLMOps
3.构建核心用例
4.调优之旅

分享嘉宾|王宇博 亚马逊云科技 开发者关系负责人,首席布道师

编辑整理|陈思永

内容校对|李瑶

出品社区|DataFun


01

生成式 AI 用例

生成式 AI 能够不断向前推进,是因为其可以获得实际的落地应用。让我们从一个简单的例子开始探讨生成式 AI 的应用。

1. 生成式 AI 用例:电子邮件摘要生成器


在工作中,我们会收到大量的电子邮件,尤其是涉及长时间跨度的原始邮件及回复,我们希望能够从中快速获取关键信息,以便于进一步判断和采取行动,这时电子邮件摘要生成器就可以发挥作用。通过大模型技术,可以快速生成邮件摘要,帮助用户有效获取信息。同时,针对邮件中的技术细节和最佳实践等信息,可以快速提取相关文档,以利于优化后续工作。除此以外,很多在线应用都增添了类似功能,例如商品评论摘要等等,都是利用大模型自动提炼出关键信息。

2. 从小处着手,从大处着想

从上面的例子来看生成式 AI 如何落地。

02

MLOps与 LLMOps


将大模型应用到实际生产实践中并非一蹴而就,需要经过复杂的技术实现,包括数据处理、模型评估、模型调优等一系列步骤。

MLOps(Machine Learning Operations)指的是高效的机器学习生产落地实践方案,是使机器学习运营化的能力。FMOps(Foundation Model Operations)和 LLMOps(Large Language Model Operations)则是针对大模型的生产落地实践方案。


无论是 MLOps 还是 FMOps 或 LLMOps,其核心都是人、技术和流程。人是其中最为重要的一环,包括开发者、工程师、用户等不同角色。技术则是一直以来备受关注的方面,包括模型的选择、性能、准确率、成本等等。最后是流程化,包括流水线的构建,涉及持续集成和交付工具(CICD)等技术。

相比于传统的 MLOps,LLMOps 需要考虑更多因素,主要仍是集中在人、技术和流程三大方面。

针对不同类型的用户群体,需要构建不同的 LLMOps。从用户的维度来看,三大类人群:提供者、调优者和消费者,涉及不同的技术能力。
提供者端更加关注 MLOps,而消费者端则更多关注于 AppDev/DevOps。通过对三类人群的需求理解,可以设计出更加适应不同用户的模型架构和应用流程。


03

构建核心用例

选择合适的应用场景是大模型成功落地的关键。关于用例构建,亚马逊云科技有一套成熟的方法论。

首先是理解应用场景,然后选择合适的大模型,收集测试数据,接着是提示词工程,最终部署。部署后还需要持续地监控,收集反馈数据,不断优化和迭代。

选择应用场景的过程中需要考虑关键性、规模、任务类型、语音和 ROI 等一些重要问题。以邮件摘要的场景为例,这一需求是非常重要的,但并不是必不可少的。规模方面,邮件的目标受众是公司内员工,可能有几十万人,而面向终端用户的应用规模会更大。另外,要深入分析业务流程,挖掘业务价值。

在应用场景明确后,下一步是选择合适的基础模型(FM)并进行调优。选择基础模型的过程包括三个关键步骤:第一步,了解顶级专有和开源大模型的功能;第二步,评估并选定前三名 FM;第三步,根据优先事项选定最佳的 FM。

在选择 FM 之前,首先要了解客户现有技能。接着,要了解市场上主流的大模型,包括专有或开源 FM,如 Anthropic 的 Claude 系列、亚马逊的 Nova 系列,Meta 的 Llama 和国内的众多大模型等。每种模型都有其优势与局限,选择时需根据业务需求来进行比较。需要综合考虑模型速度、参数、质量,是否可微调等各方面因素。

根据业务需求,建立一系列快速入围的模型清单,并通过简单的测试进行初步筛选。对入围模型进行实际案例测试,比如在 BI 能力的场景下,测试模型能否准确生成财务文件摘要等任务。根据测试结果和模型的表现,选择最合适的模型。此时可以考虑的因素包括:模型的精度、响应速度、扩展性以及对特定任务的适应能力。

模型评估体系类似于二叉树的结构,包含各种指标,以衡量候选模型是否能够满足需求。

上图中展示了一个模型评估的示例。

基于初步筛选出的候选大模型,进一步根据优先级选择出最佳大模型。考虑因素包括速度、精度和成本三个维度。实际应用中,有时为了节省成本,可能会选择稍微牺牲精度的模型,而在某些高精度要求的场景中,速度和成本可能会被放到次要位置。因此三者需综合考虑,根据业务需求进行权衡。

在生成式 AI 的应用开发过程中,开发者、提示词工程师和测试者的工作包括大模型的选择、提示词工程、测试、连锁提示等,还要考虑输入输出的过滤与护栏,对外需要考虑评级机制。


前端 DevOps 和应用开发者,需要在外部应用对大模型进行调用,并进行输入输出的评级和反馈。前端通过 WebUI 与最终用户进行交互。

检索增强生成技术(Retrieval-Augmented Generation,简称 RAG)是近年来生成式 AI 应用中的重要发展方向,旨在通过结合外部数据源(如知识库、数据库、文档存储等)提升大模型的生成效果。

在生成式 AI 的应用过程中,消费者通常会经历几个关键步骤:

亚马逊云科技推出的 Amazon Bedrock 服务,使用简单的 API 即可调用领先的大模型,无需深入了解大模型的技术细节。该服务支持各种主流大模型(如 Claude、Llama 等),并提供定制化微调能力,帮助用户根据自身需求调整模型。利用 Amazon Bedrock 的智能体和知识库可以快速构建 RAG,利用 Amazon Bedrock Guardrails 可实现可靠的应用。服务提供了多种安全相关能力,全方位保障用户数据和应用的安全与隐私。


04

调优之旅


在实际应用中,生成式 AI 的效果不仅仅依赖于基础模型的能力,还需要通过微调和优化来进一步提升,以更好地适应具体的业务场景,提高生成内容的质量和准确性。模型调优过程包括:

微调有多种不同的方式,第一种是传统的训练式微调,这种方式虽然可以得到更高的精度,但通常需要较高的计算能力,因此成本较高。


另一种是高效微调 PEFT,这是一种更加经济的优化方法。PEFT 只需调整少量参数,大大减少了对 GPU 资源的需求,且能够在垂直领域(如金融、医疗等)获得优异的效果。PEFT 方法已经历多年发展,其中最流行的变体包括LoRA(Low-Rank Adaptation)等。

亚马逊云科技提供的云上服务 Amazon SageMaker,依靠其强大的生成式 AI 能力,支持大模型的选择、训练、微调、评估和部署。该平台专门面向数据科学家和机器学习工程师,帮助他们优化生成式 AI 模型,并确保模型能够高效、低成本地应用于生产环境。并提供了工业化的精细管理和监控,使用户可以更高效地实现云端的 LLMOps。

大模型的生命周期管理涵盖了从模型的训练、部署到长期的监控与优化。首先是模型的微调、评估和选择,可以使用 Amazon SageMaker 进行模型评估,根据成本、延迟等进行比较和选择。第二部分是大模型的版本控制、血缘和审批。接下来是模型的部署、监控和评级,保证模型在应用过程中可检测、可反馈。最后是面向终端用户的生成式 AI 应用和互动,互动中也会收集用户反馈,以进一步优化模型。

人员和流程也是 LLMOps 中的重要环节,分清关切是成功的关键。我们的实践是通过人群画像作为切入点,在流程中进一步细化分类,构建完善的生产环境的实践。随着技术的不断发展,生成式 AI 的应用场景将更加广泛,亚马逊也将进一步完善所提供的服务,帮助更多的开发者和企业提升 AI 应用的质量与效率。
以上就是本次分享的内容,谢谢大家。






欢迎光临 链载Ai (https://www.lianzai.com/) Powered by Discuz! X3.5