链载Ai

标题: 2024 GenAI 成熟度模型,您的企业级AI准备好了吗(万字长文) [打印本页]

作者: 链载Ai    时间: 昨天 10:31
标题: 2024 GenAI 成熟度模型,您的企业级AI准备好了吗(万字长文)
当我们审视数百个项目、客户和合作伙伴时,我们看到了一些独特的增长和成熟趋势。生成式人工智能的成熟度模型反映了这一点,并概述了一个框架,描述了 GenAI 解决方案在七个不同复杂程度上的逐步发展。
使用这种成熟度模型,组织可以清楚地了解其在 GenAI 成熟度模型中的当前位置,并制定有针对性的战略来提升其能力并实现其业务目标。这种评估还可以帮助他们在技术投资、人才获取和流程优化方面做出明智的决策,确保更成功、更符合业务能力的 GenAI 之旅。
为了使技能和内部能力与期望的业务成果保持一致,企业和组织可以切实评估他们在 GenAI 成熟度模型中的当前位置,然后查看他们想要实现的业务成果并评估实现目标所需的条件(即他们未来的成熟度状态),从技术上讲,从而切实地将他们的计划、技能发展、支持和构建或购买决策与成熟度水平相结合,这将有助于他们转型以实现期望的业务成果。
您可以按照如下方式进行此类评估:
  1. 确定关键业务成果:组织首先应明确定义他们希望通过 GenAI 实施实现的具体业务成果以及用于衡量这些成果的 KPI。这些成果可能包括改善客户服务、实现流程自动化、增强决策能力或开发新产品和服务。
  2. 将结果映射到成熟度级别:一旦确定了期望的结果和 KPI,组织就可以将它们映射到成熟度模型中的相应级别。例如:
    1. 0 级:如果主要目标或能力是为未来的 GenAI 计划收集和组织数据,则该组织可能处于 0 级。数据当然是推动 AI 的基础元素;无论是预测性 AI 还是生成性 AI。
    2. 级别 1 和 2:如果重点是使用 GenAI 执行基本任务,例如内容生成、总结内容、使用基本功能和所服务基础模型的知识来回答问题或进行信息检索,则组织可能处于级别 1 或 2。
    3. 级别 3 和 4:希望使用其数据定制 GenAI 模型或确保输出质量和相关性的组织可能处于级别 3 或 4。
    4. 第 5 级和第 6 级:对于需要多智能体系统、高级推理或负责任的 AI 实践的复杂用例,组织可能瞄准第 5 级或第 6 级。
  3. 评估当前能力:组织应评估其当前在数据基础设施、模型选择、快速工程、模型调整、评估和多智能体系统基础设施方面的能力。评估可以通过内部审计、外部咨询或与行业标准进行基准测试来完成。
  4. 识别差距和机会:通过将期望结果与当前能力进行比较,组织可以识别 GenAI 成熟度方面的差距。这些差距代表需要投资和开发才能达到期望水平的领域。此外,他们可能会发现利用现有优势并加速进步的机会。
  5. 制定路线图:根据评估,组织可以制定路线图,概述弥补差距和实现预期业务成果所需的步骤。该路线图应优先考虑符合战略目标的举措并有效分配资源。


GenAI 之旅

是的,GenAI 在端到端应用程序的实施中增强了数据策略、管道、共享等和预测性。GenAI 是一段旅程。它从基本的 0 级开始,重点是获取或生成、整理和准备数据,这是 GenAI 模型的基本原材料。这涉及收集大量数据集、清理它们并确保它们的质量和相关性以用于培训目的。
进入第 1 级,组织选择合适的 GenAI 模型并制作有效的提示来与它们交互。提示是指导模型输出的文本输入,选择正确的模型和提示对于实现预期结果至关重要。此外,此级别涉及为这些模型提供服务,使它们可用于特定任务。
当我们达到第 2 级时,通过 GenAI 模型检索信息时,复杂性会增加。这表明交互更加复杂,需要查询模型以从其庞大的知识库中提取特定见解或数据。第 3 级涉及使用专有或特定领域的数据对 GenAI 模型进行微调。微调是一个将预先训练的模型适应特定任务或领域的过程,从而增强其性能和定制性。这使组织能够根据其独特的需求和要求定制模型。
在后续阶段,通过对输出进行基础研究和评估,进一步完善模型,确保其准确性、相关性和道德一致性。引入了多Agent系统,其中多个 GenAI 模型在 LLM 的协调下进行协作。这有助于完成需要协调和整合各种功能的复杂任务。可观察性和 LLMOps 变得至关重要,确保模型行为的透明度并简化 GenAI 生命周期的操作方面。
请注意,在更高的成熟度水平上,可以采用思维树 (ToT) 、思维图 (GoT)、DSPy 、自我修正 和 ReAct 等先进技术来增强 GenAI 模型的推理、规划和行动能力。这些技术实现了复杂的决策和解决问题的能力,突破了生成式 AI 所能实现的界限。
成熟度模型图说明了生成式人工智能解决方案在七个成熟度和复杂程度级别上的日益复杂化。
请注意,除了级别之外,您还可以将成熟度级别的组成部分聚集在支持特定领域日益复杂化的列中,例如 RAG 或建模调整。
让我们将 GenAI 中每个成熟度级别分解成其组成元素。

通用人工智能成熟度模型:复杂程度
该成熟度模型描绘了 GenAI 解决方案日益复杂化的道路,从基本的数据准备和模型选择开始,逐渐进行微调、评估,最终达到多Agent系统、高级推理和负责任的人工智能实践的阶段。

级别 0:准备数据
这一基础级别侧重于获取或创建必要的数据集,并确保其质量和适用于基于 GenAI/LLM 或基于代理的应用程序。这将涉及采购、清理、准备、获取使用许可证、生成合成数据以及数据工程和转换活动。

级别 1:选择模型并提示:服务模型
这是最简单的级别:选择一个 LLM 并提示它。处于此级别的组织已经确定了合适的模型,并正在设计有效的提示来与它们互动。他们还能够将这些模型用于通常通过提示工程来引导的特定任务。请注意,相同的提示可能不会为不同的 LLM 产生有利的结果。
模型选择、快速工程和检索:该过程首先根据具体任务选择合适的 LLM 模型,然后使用专有数据对其进行微调。有效的快速工程可指导模型的行为,信息检索机制可从内部知识库中提取相关信息。此检索步骤通常由企业搜索功能提供支持,可让模型访问组织内部资源中的相关文档和数据。
请注意,上下文学习和多样本学习可以提供有希望的模型调整。请参阅模型调整部分。

级别 2:检索增强:检索信息以增强提示
在上一阶段的基础上,此阶段涉及通过 GenAI 模型检索相关信息。这表明与模型进行更复杂的交互以提取特定的见解或数据。
在这里,重点转移到使用专有或特定领域的数据对 GenAI 模型进行微调。这可以提高性能并更好地定制模型以满足特定要求。
检索增强生成 (RAG) 是一个将信息检索系统与 LLM 相结合的框架,用于生成更准确、更明智的响应。RAG 的复杂程度可根据检索和集成机制的复杂性分为不同的级别。
RAG(检索增强生成):在从内部来源进行初始检索之后,RAG 利用搜索引擎的外部搜索功能,例如 Vertex AI 基础服务提供的功能。这涉及查询外部知识库、网络和其他相关来源,以收集可增强生成输出的准确性和上下文的其他信息。内部和外部搜索的结合可确保对主题的全面理解。
值得注意的是,检索增强本身具有多个复杂层次。让我们来探索一下。
级别 2.1:简单检索和生成
在这个基本层面上,RAG 根据用户的查询从知识库或语料库中检索相关文档或段落。检索到的信息随后直接传递给 LLM,LLM 使用检索到的内容作为上下文生成响应。这种方法相对简单,但可能并不总是能产生最准确或最相关的结果,因为它完全依赖于 LLM 理解和综合检索到的信息的能力。
级别 2.2:上下文检索和生成
此级别引入了更复杂的检索机制,这些机制考虑了用户查询的上下文。它不是简单地根据关键字匹配检索文档,而是可能利用语义搜索或查询扩展等技术来识别更相关的信息。此外,在传递给 LLM 之前,可以根据相关性或重要性对检索到的信息进行过滤或排序。这通过为 LLM 提供更有针对性和上下文相关的信息来提高生成的响应的质量。
级别 2.3:动态检索和生成
这一级别使 RAG 更进一步,在生成过程中动态检索信息。LLM 无需预先检索所有相关信息,而是可以根据需要迭代请求其他信息,以生成更全面、更准确的响应。这种方法允许进行更细致入微、更具互动性的对话,LLM 可以主动寻找其他信息来澄清歧义或填补知识空白。
级别 2.4:多源检索和生成
这一高级水平涉及从多个来源检索信息,例如不同的知识库、数据库,甚至实时数据流。这里的挑战是有效地整合来自不同来源的信息,这些信息可能具有不同的格式、结构或可靠性级别。这需要复杂的检索和融合技术,以确保生成的响应连贯、准确且最新。
级别 2.5:知识感知生成
在这个最高复杂度级别,RAG 结合了知识图谱或其他结构化知识表示,以增强 LLM 对检索到的信息的理解。这使 LLM 能够推理检索到的知识,识别概念之间的关系,并生成更明智和更有见地的响应。这种方法对于需要深度领域知识或推理能力的复杂任务特别有用。

级别 3:使用领域特定数据调整模型
这一级别包括调整模型的能力,随着成熟度级别的提高,可以使用参数有效的微调、带人工反馈的强化学习 (RLHF)、监督微调 (SFT) 或完全微调 (FFT)。
这样,模型就可以在特定行业或领域的数据上进行训练。每个组织的秘密来源都是他们多年来经营业务所积累的私人数据,这些数据通常代表着该垂直领域的独特价值。训练一个或两个模型非常重要,这些模型要能够理解术语、本体实体以及特定垂直领域(如零售、医疗保健、金融服务等)数据中所包含的一般知识。
微调 AI 模型涉及各种方法,其复杂程度和应用范围各不相同,从简单的上下文调整到高级强化学习。以下是这些方法的详细概述,按成熟度和复杂程度排列:
3.1. 情境学习(ICL)
3.2. 多样本(使用大型上下文窗口)
DeepMind 对“多样本上下文学习”的研究表明,增加上下文窗口内提供的示例数量可以显著提高性能。这凸显了利用大型上下文窗口的潜力,不仅可以提高理解力,还可以使模型能够从多个演示中有效地学习。
3.3. 预训练小型语言模型

级别 4:通过搜索和引用为模型输出打下基础
除了模型微调之外,这一层级还包含 GenAI 输出的基础和评估。这意味着要确保生成的内容在事实上准确、相关且符合道德考虑。
在 GenAI 成熟度模型的 4 级中,能力组合侧重于通过强大的基础和评估流程来确保生成输出的质量和可靠性,并通过使用 Vertex AI 基础服务进行内部企业搜索和类似 Google 的外部搜索来增强功能。
基础和评估:从内部和外部来源检索到的信息要经过彻底的基础和评估过程。这包括验证事实的准确性、识别潜在偏见以及评估信息与生成输出的相关性。Vertex AI 基础服务在此步骤中发挥着至关重要的作用,它为所使用的信息提供引文和参考,从而增加了生成内容的可信度和透明度。
  1. RAG 后细化:在基础和评估过程之后,LLM 可能会根据收到的反馈细化生成的输出。此细化过程可确保最终输出不仅准确且相关,而且还得到可靠来源的充分支持。
  2. 服务模型:最后,将经过完善和验证的模型提供给用户或集成到应用程序中,提供基于经过验证的信息的可靠且信息丰富的响应。
内部企业搜索有助于快速识别组织自身知识库中的相关文档、数据和信息。这为根据公司特定的知识和专长生成输出提供了一个宝贵的起点。
类似 Google 的外部搜索(例如 Vertex AI 基础服务)通过访问大量外部来源扩大了信息检索的范围。这确保生成的输出不仅限于组织的内部知识,还包含来自更广泛领域的最新信息和见解。
当您将这两种搜索功能结合起来时,GenAI 系统可以从内部和外部来源找到引文和参考文献,从而增强生成输出的可信度和可靠性。这种 RAG 后基础和评估过程可确保最终输出不仅信息丰富,而且值得信赖且透明。

级别 5:基于Agent的系统
这一高级级别引入了多Agent系统,其中多个 GenAI 模型在中央大型语言模型 (LLM) 的编排下协同工作。这使得需要协调和集成各种功能的复杂任务成为可能。此外,课程还非常重视可观察性(监控和理解模型行为)和 LLMOps(实施 GenAI 模型生命周期)。
在 GenAI 成熟度模型的第 5 级,几种关键能力融合形成一个复杂的系统,为向基于Agent和多Agent系统的发展奠定了基础。
模型选择、快速工程和检索:该过程从根据特定任务选择合适的 LLM 模型开始,然后使用专有数据对其进行微调。有效的快速工程指导模型的行为,信息检索机制从各种来源提取相关信息,丰富 LLM 的知识库。您可以在快速工程中使用额外的复杂功能,例如上下文学习、思路链、使用清晰步骤和类似 XML 的结构进行格式化,或者您可以进一步提高复杂度并使用思路大纲、思路树等,并将其与评估 LLM 结果的 ReAct 框架相结合,并对观察到的输出进行推理,然后重新生成并最终采取行动。因此,5 级复杂度不仅体现在 LLMOps 和基于Agent的架构的使用上,还可以体现在高级快速工程技术方面的更深层次的复杂度。
通过 LLM 进行编排:第 5 级的核心创新/新增功能之一是引入中央 LLM 作为编排器。该 LLM 充当指挥者,协调其他模型或组件的操作。它分配任务、管理通信并集成不同模型的输出,从而创建有凝聚力的工作流程。这是迈向基于Agent的系统的第一步,其中各个模型可以被视为具有专门角色的Agent。
兜底和评估:从第 4 级开始,兜底机制继续用于确保生成输出的质量和可靠性,采用兜底机制。这些机制根据可靠来源验证信息并评估响应的潜在影响。评估过程监控系统的性能,为持续改进提供反馈。
评估、可观察性和 LLMOps:为 GenAI 参考架构的每个组件引入正式的、端到端的可观察性和评估机制是第 5 级的关键要素。
这种对系统性能的持续评估和监控对于 LLM 为架构的各个组件生成的内容至关重要;提示、RAG 输出、调整模型迁移或偏差、兜底输出等。可观察性提供了对 LLM 行为的洞察,从而实现了主动调整。LLMOps 实践简化了整个 GenAI 基础设施的部署、管理和监控。
基于Agent的系统与多Agent系统
让我们区分一下这两个概念。
  1. 基于Agent的系统:涉及一个充当Agent的 LLM 模型,执行任务、做出决策并与其环境交互。LLM 可以看作具有各种功能的整体实体。
  2. 多Agent系统:通过引入多个专门的 LLM,从基于Agent的系统发展而来。每个 LLM 都充当具有特定角色或专业知识的独立Agent。这些Agent协作、沟通并协调其行动,以解决单个Agent无法有效处理的复杂问题。
第 5 级是迈向多Agent系统的垫脚石,它建立了协调多个模型的基本基础设施。它使组织能够尝试将特定任务分配给不同的模型并评估其性能。这种实验为开发更复杂的Agent系统铺平了道路,在这种系统中,具有互补技能的不同模型可以协同工作以实现共同目标。
第 5 级为从单一的 LLM 模型向专业Agent网络的范式转变奠定了基础,每个Agent都发挥其独特的优势来应对日益复杂的挑战。这一转变有望在 GenAI 领域开启新的效率、适应性和创新水平。

级别 6:多Agent生态系统
成熟度的顶峰涉及使用思维树或思维图等先进技术来增强 GenAI 模型的推理和规划能力。这些方法有助于更复杂的决策和解决问题。在这个级别,LLM 协调和控制其他 LLM,表明 GenAI 生态系统高度自主且功能强大。该框架强调负责任的人工智能,表明了对合乎道德和公平使用人工智能技术的承诺。
6 级代表 GenAI 相当成熟度,无缝集成先进技术和框架以实现高价值能力。
  1. 使用思维树/思维图增强推理能力:第 6 级利用思维树 (ToT) 或思维图 (GoT) 框架的力量。这些框架使 LLM 能够将复杂问题分解为更小、可管理的步骤,系统地探索潜在解决方案并做出明智的决策。这显著增强了 GenAI 系统的推理、规划和解决问题的能力。
  2. 使用 DSPY 和 ReAct 进行主动信息收集:第 6 级融合了 DSPY(演示-搜索-预测)和 ReAct(推理和表演)等方法。DSPY 指导 LLM 决定何时搜索外部信息、预测相关查询并将检索到的信息纳入其推理过程。ReAct 使 LLM 能够主动与其环境互动,根据其收集的信息做出决策并采取行动。
  3. 信息检索与集成:6 级利用先进的信息检索技术从各种来源(包括内部知识库和外部数据库)获取相关数据。然后将检索到的信息无缝集成到 LLM 的推理过程中,为其提供最新且与上下文相关的知识。
  4. 使用自定义数据进行模型调整:LLM 使用专有或特定领域的数据进行微调,以优化其性能并使其适应特定任务和领域。这可确保模型生成准确、相关且符合上下文的响应。
  5. 多Agent编排和控制:第 6 级部署了一个多Agent系统,其中多个 LLM 在中央 LLM 的编排和控制下协同工作。这使系统能够处理需要协调、专业化和多样化专业知识的复杂任务。
  6. 兜底和评估:采用严格的兜底和评估机制,确保生成的输出结果准确、相关且符合道德和安全准则。这包括根据可靠来源验证信息并评估响应的潜在影响。
  7. 评估、可观察性和 LLMOps:第 6 级强调持续评估和监控 GenAI 系统的性能,深入了解其行为并实现主动调整。实施强大的 LLMOps 实践,以简化整个 GenAI 基础设施的部署、管理和监控。
6 级代表了前沿技术与最佳实践的完美结合,使 GenAI 系统能够达到无与伦比的推理、决策和解决问题的能力。这种综合方法确保系统不仅功能强大,而且可靠、合乎道德,并能适应不断变化的需求。
平行和垂直领域
接下来我们来看看如何在平行和垂直领域战略性地实施GenAI。
在这里,组织可以通过提高效率、生产力、客户满意度和创新来获得可观的投资回报。对于这些指标和关键绩效指标,尽早识别、衡量、监控和纠正非常重要。不仅要仔细定义目标、衡量相关关键绩效指标,而且要不断调整策略,以在不断发展和快速重组的商业环境中最大限度地发挥 GenAI 的优势,这一点至关重要。
利用 GenAI 提高平行领域的投资回报率
当然,平行领域是指跨组织内各个行业和业务部门的功能或流程。GenAI 可以应用于这些领域,以提高效率、生产力和整体投资回报率。
垂直领域是特定领域或特定行业的领域,特定于业务领域和行业甚至子行业,根据每个行业的独特需求和挑战定制解决方案。
GenAI 可以部署在各个垂直领域以提高投资回报率。
了解组织、团队项目甚至个人当前的成熟度和复杂程度非常重要。然后,我们需要确定目标成熟度级别,以便获得技能并发展技能,从而达到满足技术要求所必需的复杂程度,这些技术要求将提供在该目标成熟度级别定义的业务影响和结果。
组织可以定义和制定路线图,通过使用工具构建技能和能力来推进他们的业务目标,并利用涵盖所有成熟度级别的 Cloud AI 平台来实现他们渴望达到的目标成熟度级别的业务成果。

--原文翻译自Google AI/ML






欢迎光临 链载Ai (https://www.lianzai.com/) Powered by Discuz! X3.5