1)LLMOps介绍
2)为什么LLMOps现在很重要
3)生产中LLM的痛点
4)海外LLMOps市场地图
5)结语在过去的一年里,人工智能以飞快的速度发展,许多人认为它终于跨越了几十年来一直被承诺的拐点。大语言模型(LLM)的出现,特别是OpenAI的ChatGPT所展示的能力,激发了大家的想象力。生成式人工智能甚至已经在企业市场上掀起了波澜,几乎所有的公司,都在积极探索将AI能力整合到其产品和服务中的途径。然而,任何新技术的普及都在很大程度上取决于有力的工具和基础设施的可用性。在B2B的产品中,卖点不仅仅是准确性或高级功能,因为竞争对手可以在这些方面迅速赶上。真正的差异化在于提供卓越的用户体验:简化设置、轻松使用和降低开销。如上图所示,LLMOps包括使LLM工作所需的一切——开发、部署和维护,它是一套管理LLM驱动的应用程序的新工具和最佳实践。“用LLM制作一些酷炫的东西很容易,但要用它们制作一个适合生产的东西则非常困难。”自Google于2017年8月发布原始Transformer论文以来,LLM已经在以飞快的速度发展。看看下面这张令人惊叹的图表,以了解LLMs的发展历程。 现在看来,LLM技术已经成熟了——即使有很多缺点,今天的LLM对于很多任务来说已经足够好了。LLM不仅仅可以生成文本、图像、音乐等,还直接调用API、执行代码或修改系统资源——LLM将成为软件的新交互层。LLM可以生成并触发复杂的动态工作流,他们将会互相集成、推理和处理彼此的任务,包括文本、图像、代码、音频和视频等不同的形式。为了使企业和个人能够使用LLM,我们需要强大的工具和平台。因此,LLM基础设施是一个充满创新潜力的领域,也是投资的机会。LLM很昂贵:大语言模型的训练非常昂贵,因为它需要对新数据集进行持续的实验和重新训练,以防止模型变得陈旧。更要命的是,推理成本很高。微调很难:只有少数公司足够成熟,能够不断微调他们的模型并保持数据管道的健康,尤其是在今天大多数数据跨代码、服务、产品团队甚至组织共享的情况下。LLM尽管拥有很多优点,但在生产环境中可能会成为噩梦——你不能只是训练一次然后永远不变。LLM会产生幻觉:这是LLM的一个主要问题,因为它可以传播大量的错误信息。此外,试图理解幻觉发生的原因是困难的,因为LLM推导其输出的方式是一个黑盒子。但是我们知道数据质量、生成方法还有上下文输入会影响幻觉。规模化和延迟问题:客户端编排要比服务器端编排简单得多,真正的挑战是解决现代应用程序的规模化的需求。想象一下,在分布式系统中训练和部署LLM,要考虑到企业级应用缓存、限流和认证授权等一系列关键问题,如何确保系统稳定性、安全性和性能带来了巨大的运营挑战。隐私和安全:我们已经看到了关于LLM的多个安全问题的实例(比如三星内部数据泄露事件),提示注入已经成为一种流行且有效的绕过LLM基本安全防护的攻击工具。可以预见,在LLM技术栈各个层面加强安全措施之前,企业端的应用不会迅速增长。随着LLM的发展,大量的初创公司在开拓新的产品,试图来解决这些痛点。下图是海外市场的生态现状,涵盖了整个LLMOps基础设施技术栈的各个领域:A. 编排框架:这些框架帮助开发者在客户端集成生成式AI应用,将已部署的模型与外部软件API和其他基础模型相连,并促进用户与应用的互动。这些框架还可以将复杂任务分解成多个小任务,来进行任务编排。B. 提示管理:未来应用程序将由多个LLM组成,很可能具有多模态架构,由编排层把它们粘合在一起。在这样的结构中,提示(Prompt)将是中心件,因此我们需要灵活的并适应各种场景的提示工程工具,包括生命周期管理和版本控制的功能,并且与众多语言模型兼容。利用LLM的一种有效方法是从上下文生成它的数学表示——嵌入(embedding),然后在这些嵌入之上开发ML应用程序, 例如搜索、聚类、推荐、异常检测等, 都是通过对这些数学向量进行相似性检查来完成。然而,这些嵌入可能会变得非常大,因为文档/信息可能包含成千上万个Token。因此,我们需要向量数据库来有效地存储和检索嵌入。随着生成式人工智能愈加成熟,LLM的数据存储和检索将继续发展。因此,在向量数据库中看到大规模的创新和增长是有可能的。 模型的训练、微调和推理都是困难且非常昂贵的。因此,我们需要新的工具和技术来减少训练、微调和推理的成本。除了成本外,推理的延迟也至关重要,没有人愿意等待数秒钟才能获得响应或在应用程序上触发操作。微调的问题不仅仅是性能,它涉及通过在更多数据上重新训练模型来更新底层基础模型的参数。适当微调的模型可以提高预测精度,改善模型性能,并减少训练成本。然而,微调模型并不像看起来那么容易,如果处理不当,甚至可能导致更糟糕的结果。对模型进行微调不仅需要深厚的技术专业知识,还需要大量的存储和计算资源。因此,我们需要易用的工具来帮助我们完成这些复杂精细的工作。服务器端编排包括在后端执行的代码片段,即用于运行模型的服务器——部署、训练、推理、监控和安全。A. 部署:在考虑利用基础模型时,企业可以使用外部模型或部署自己的模型。然而,部署模型并不简单且成本高昂。你需要扩展模型架构,版本升级,在多个模型之间切换等。此外,部署和训练模型需要强大的按需GPU基础设施。自动化部署流水线(CI/CD)将提供流畅的训练、微调和推理功能,以及传统软件功能,例如升级和回滚,以最小化用户干扰。B. 可观察性:在生产系统中,我们能够观察、评估、优化和调试代码是至关重要的。由于LLM的黑盒性质,可观察性问题变得更加严重。可观察性包括跟踪和理解性能,识别故障、停机、停机时间,评估系统健康,以及解释输出——解释模型为何做出某个决定等等。C. 隐私/安全:随着严格的隐私和安全法律的发布,我们需要提供准确评估模型公平性、偏见和毒性的工具,以及安全防护栏。企业现在越来越关注训练数据的提取、损坏的训练数据以及专有敏感数据的泄露。除此之外,LLM就像传统的机器学习模型一样容易受到对抗性攻击。因此,我们需要可以保护免受提示注入、数据泄露和有毒语言生成的产品;通过匿名化保证数据隐私;为LLM提供访问控制(例如RBAC);实施对抗性训练和防御蒸馏等等。这些产品可以帮助检测异常并通过维护其完整性来优化生产模型。国内的LLMOps行业市场格局和商业模式与国外存在着较大的差异,并且还在持续演变的过程中,需要进一步的调查研究。但无论如何,我对LLMOps充满信心,相信LLMOps会成为AI基础设施的核心组成部分,期待看到在未来几年内它将如何发展!
|