《生成式AI卓越架构设计指导原则》：从

显示全部楼层

在AI技术日新月异的今天，企业如何构建安全、稳定、高效的AI应用？

在2025云栖大会上，阿里云公共云技术服务部 X 组带来了一场题为"智能时代上云管云框架：生成式AI卓越架构"的精彩分享，正式发布了《生成式AI卓越架构设计指导原则》。这一指导原则的发布，标志着阿里云在帮助企业从"能用AI"走向"用好AI"的道路上迈出关键一步。

一、前言： AI时代，为何仍需体系化框架？

"在数字化时代，卓越架构非常重要，对整个上云管云都提供了理论指导。到了AI时代，AI发展速度极快，每隔两三个月就会有重大变化。在这么高度变化的情况下，还有没有必要再用一个体系化的框架去管理生成式AI？我的答案是非常有必要。而且可能恰恰是这个框架，是对企业能否顺利完成AI转型的决定性因素。"

阿里云专家指出，尽管人工智能技术迭代迅猛，但企业在生产环境中落地AI的要求却日益严苛。企业级AI的应用远不止于“打开一个App与ChatGPT对话”式的体验——它必须满足更高的标准：输出结果准确可靠、服务持续稳定；深度集成现有生产系统；并能与业务需求协同演进、持续迭代。

为帮助正在探索或已部署生成式AI的企业和团队构建高质量、可持续演进的AI系统，阿里云公共云技术服务团队联合阿里云开放平台与信通院，共同发布了《生成式AI卓越架构设计指导原则》。该原则旨在为企业用户提供一套系统化、可落地的架构方法论与最佳实践。

本指导原则以云原生“卓越架构五大支柱”（安全、稳定、效率、成本、性能）为基础，深度融合生成式AI的技术特性，聚焦以下关键领域提出针对性设计建议：

大模型内容合规与安全治理
训练与推理（训推）一体化架构
MLOps与持续运营机制
GPU算力弹性调度与资源优化
Scaling Law驱动的性能扩展策略

二、原则：破解AI落地核心挑战：五大支柱

通过在安全、稳定、效率、成本与性能五大维度上系统性地融合生成式AI的独特需求，《生成式AI卓越架构设计指导原则》为企业构建高可用、高可信、高性价比的生成式AI系统提供了权威指引，助力AI真正融入核心业务流程，实现技术价值与商业价值的统一。

1. 安全：从数据全生命周期到Responsible AI

在生成式人工智能（Generative AI）架构中，安全不仅是基础保障，更是系统设计的核心命题。相较于传统应用，生成式 AI 系统具有数据规模更大、模型结构更复杂、调用链路更长等特点，其潜在风险呈现出高度多样性与传导性。具体而言，主要面临以下四大挑战：

挑战一：数据安全与合规要求显著提升。生成式 AI 时代，“数据”的边界已大幅扩展——不仅包括结构化业务数据，还涵盖多模态语料、用户交互日志、提示词（Prompt）乃至模型输出内容。这使得数据安全不再局限于传统的机密性与完整性保护，还需防范数据滥用、对抗性投毒、内容篡改等新型威胁。同时，企业必须满足日益严格的合规要求（如《生成式人工智能服务管理暂行办法》、GDPR 等），确保数据处理全过程可审计、可追溯、可问责。
挑战二：基础设施（Infra）安全复杂度急剧上升。GPU/TPU 等高性能算力集群已成为生成式 AI 的核心资产，同时也成为攻击者的新目标。训练与推理所依赖的容器平台、调度系统、网络架构等基础设施一旦存在安全漏洞，不仅可能导致算力资源被劫持、训练任务被干扰，甚至可能引发模型参数泄露或推理结果被操控，严重威胁业务连续性与模型可信度。
挑战三：开源供应链引入系统性安全风险。生成式 AI 的技术栈高度依赖开源生态，包括预训练大模型、深度学习框架（如 PyTorch、TensorFlow）、推理引擎、第三方数据集及工具链等。这种复杂的软件供应链极大提升了安全治理难度。例如，若引入的开源模型隐含后门、训练数据存在偏见，或依赖库存在未修复漏洞，风险将沿链路传导至最终应用，导致企业在无意识中向用户交付不安全服务。
挑战四：模型不确定性与可信 AI 要求之间的张力。大模型本质上具有非确定性：相同输入在不同上下文或随机种子下可能产生差异化的输出。然而，企业级应用对 AI 的期望远不止“能生成”，更要求其具备公平性、可解释性、鲁棒性与滥用防护能力。如何在保持模型创造力的同时，确保其行为符合伦理规范、法律法规及业务预期，是构建Responsible AI的关键挑战。

为了更好的指导安全架构设计，阿里云提出了数据全生命周期安全、算力与容器安全、模型供应链安全及 Responsible AI四大安全维度，帮助企业构建全方位安全防护体系。具体内容如下：

数据全生命周期安全：

数据采集阶段确保数据来源合规，采用TLS/HTTPS加密传输，并对敏感数据进行脱敏处理；
存储环节实施细粒度访问控制，使用加密存储技术，并定期执行密钥轮转，增强安全性；
训练阶段通过数据清洗和异常检测等手段防止数据投毒，过滤掉偏见样本，保证训练数据的纯净性；
推理过程结合输入验证、内容过滤和输出审计机制，有效防御Prompt注入和对抗样本攻击；
采用冷热分层存储策略，自动化管理数据生命周期，使用加密删除机制确保数据彻底销毁。

算力与容器安全：

利用虚拟化或沙箱技术实现异构算力资源的多租户隔离，保障用户间的数据安全；
应用可信镜像签名、安全扫描工具，并在沙箱环境中运行容器，减少潜在风险；
定期执行漏洞扫描和配置审查，及时修补发现的安全缺陷；
通过集中化的密钥托管服务（如KMS）和临时凭据管理，最小化凭据暴露风险；
在涉及敏感信息处理时，应用可信执行环境和隐私计算技术保护数据隐私；
建立针对GPU/CPU利用率、内存带宽等关键指标的全面监控体系，确保系统稳定运行。

模型供应链安全：

对第三方模型及其依赖进行完整性校验和漏洞检测，优先选择官方库或可信赖源；
对模型权重文件实施加密存储，设置严格的访问控制，并通过哈希校验和签名验证确保其未被篡改；
部署输入过滤、输出审计和速率限制机制，提高推理过程的安全性；
建立覆盖训练数据、超参数及依赖组件的全链路版本追溯体系，记录迭代变化，便于问题追踪。

Responsible AI：

通过数据质量检测和去偏方法降低训练和推理中的公平性风险，确保算法公正；
在金融、医疗等敏感领域提供特征分析、可视化工具和算法备案，增加决策透明度；
严格遵守国内外AI及数据隐私相关法律法规，如《生成式人工智能服务管理办法》，并建立内容安全和可追溯机制；
部署内容检测过滤系统，实时拦截有害内容，维护平台健康生态；
对插件和用户行为实行最小权限原则下的隔离措施，并进行全面的行为审计，确保操作可追溯。

2. 稳定性：从"API调用成功"到"回答准确"

生成式AI对算力和架构的稳定性提出了极高的要求。无论是涉及数千张GPU/TPU卡的大规模模型训练，还是支撑亿级请求量的在线推理服务，系统都必须在面对网络抖动、硬件故障及流量突增等不可避免的异常情况下保持稳定运行。由于生成式AI架构的复杂性，其稳定性设计面临更大的挑战，具体体现在以下几个方面：

挑战一：GPU 算力调度的复杂度。在生成式AI的训练与推理过程中，GPU/TPU等异构算力资源至关重要。一方面，这些高端计算资源成本高昂且供应有限，缺乏弹性调度和故障切换机制可能导致单点故障或流量激增时任务中断。另一方面，算力利用率直接影响总体成本和投资回报率（ROI），因此高效利用资源是关键。
挑战二：推理服务 SLA 规则与传统 SLA 不同。与传统数字化服务以可用性为主要衡量标准不同，生成式AI推理服务的服务水平协议（SLA）不仅涵盖可用性，还需考量响应速度。鉴于生成式AI通常服务于海量用户请求，任何一次服务中断或延迟都会直接影响业务连续性和用户体验。
挑战三：分布式训练的复杂度。大规模分布式训练往往需要数百乃至上千张GPU/TPU卡，并可能持续数周时间。在此期间，任何硬件或网络异常都有可能导致巨大的资源浪费，因此，必须具备强大的容错能力和自动恢复机制，确保训练过程不受影响。
挑战四：缺乏全链路监控标准。生成式AI系统的链路复杂，传统的监控手段难以全面覆盖。为了确保系统的稳定运行，必须建立一个包含指标监控、全链路追踪、日志分析与审计在内的全方位可观测性体系，以便及时发现并解决潜在问题。
挑战五：灾备建设需求的增加。即使拥有完善的容错和监控能力，生成式AI系统仍需应对诸如大规模网络中断、硬件故障、自然灾害或云节点异常等极端情况。因此，在系统设计初期就应引入跨可用区乃至跨地域的灾难恢复机制，以增强系统的抗风险能力。

阿里云提出“面向失败”的设计理念，通过弹性调度、多层次冗余架构及全链路可观测性等策略，确保AI系统在面对异常情况时依然能够稳定运行。以下是具体措施：

弹性调度：

基于节点故障不可避免的假设进行冗余设计，确保系统的高可用性；
为关键业务提供弹性保障，同时限制低优先级任务对资源的抢占，确保核心服务的稳定性；
利用统一编排与动态调度机制，构建涵盖多可用区和多地域的资源池，实现训练与推理任务的自动迁移，防止因硬件或网络问题导致的任务中断；
采用混合实例与异构混部，灵活组合使用GPU/TPU等加速卡资源，最大化资源利用率；
构建算力健康监控，实时监控GPU/TPU的利用率、显存占用及网络带宽，及时发现并解决潜在问题。

模型推理的 SLA 与冗余架构：

做好冗余架构设计，计算层采用多实例部署与自动伸缩策略；网络层通过负载均衡和全局流量调度实现跨可用区冗余；应用层通过AI网关支持超时重试、Failover（故障转移）、灰度发布、Token级限流及并发控制，提升服务连续性；
设定如TTFT（首Token延迟）、TPS（每秒生成Token数）、E2E Latency（端到端延迟）和Throughput（吞吐量）等关键指标来衡量模型推理性能；
建设异常容错机制，通过重试、回退至小模型、缓存结果和服务降级等方式应对异常情况，保证业务连续性；
结合关键指标进行压测，识别推理服务的负载瓶颈，并据此优化系统配置；
采用灰度发布策略，在检测到异常时迅速回滚，降低对用户的影响。

分布式训练的容错与检查点恢复：

选用支持断点续训和任务重调度的框架，确保单个节点故障不会影响整体训练进度；
定期将模型参数、优化器状态及中间结果定期保存至持久化存储，以便在发生故障时快速恢复；
存储分层，将高频访问的权重数据存储于高性能介质中，而历史版本则归档至低成本存储，平衡性能与成本；
定期评估模型的技术指标，包括通信延迟、梯度同步效率、数据加载速度和GPU利用率，持续优化训练过程；
建立模拟训练出错与恢复的演练机制，验证容错方案的有效性，确保实际操作中的可行性。

3. 效率：构建数据飞轮，实现业务与AI螺旋式前进

AI 时代，应用迭代速度显著超越传统软件开发范式，系统需持续围绕“准确率目标”进行高频优化。值得注意的是，准确率的提升并非线性过程——从30%提升至60%与从80%提升至90%所需投入的资源、数据质量与工程复杂度存在数量级差异。

在生成式AI落地过程中，系统架构不仅需保障安全性与稳定性，更需在运维与治理层面实现高效协同。相较于传统应用，生成式AI系统引入了数据预处理、模型训练、微调、部署及持续迭代等多个新增环节，显著提升了整体运营复杂度。具体挑战体现在以下三个方面：

挑战一：MLOps 的需求加重了运维复杂度。传统 DevOps 流程难以覆盖模型全生命周期的特殊需求，例如实验追踪、数据版本管理、模型注册与灰度发布等；而孤立建设的 MLOps 工具链则易形成“工具孤岛”，导致算法团队与运维、平台团队之间缺乏统一协作视图与标准化流程，阻碍端到端交付效率。
挑战二：MCP、A2A 等新技术的出现，加大了服务治理的复杂度。随着 Model-as-a-Service（MaaS）、Agent-to-Agent（A2A）及多智能体协同（MCP）等新架构模式的兴起，生成式AI系统需频繁调用并集成大量内部与外部服务接口。若缺乏统一的服务注册、发现、鉴权、限流与可观测性治理机制，接口将分散于不同团队与系统之中，造成管理碎片化、安全风险上升及协同效率下降。
挑战三：生成式 AI 的不确定性加大了自动化治理的需求。生成式AI固有的输出不确定性与行为不可预测性，使得人工审核与静态规则难以支撑大规模生产环境下的合规性与可靠性要求。随着系统规模扩展，必须构建基于策略引擎、实时监控与反馈闭环的自动化治理能力，实现对内容安全、性能退化、偏见漂移等问题的主动识别与干预，确保系统持续符合业务与监管要求。

为了构建覆盖生成式AI全生命周期的高效运营框架，业界普遍采用DevOps与MLOps融合、一体化管控平台、自动化治理与合规审计等体系化能力。具体措施如下：

AI 全生命周期运维：

建立从数据采集、模型训练到部署及迭代的全面闭环管理体系，确保每个环节的无缝衔接和持续优化；
利用自动化工具提高效率，包括数据采集标注、清洗治理以及通过CI/CD流水线实现模型自动部署；
结合日志观测，使用数据漂移检测与性能监控技术识别模型优化需求，并自动触发再训练流程；
构建全链路监测能力，实现AI全生命周期的可追溯性与合规审计；

DevOps+MLOps 一体化：

将传统DevOps与MLOps的优势相结合，统一代码、数据、模型与运维工作流至统一流水线，既保持了DevOps快速迭代的能力，又满足了MLOps对实验追踪、数据版本控制及模型发布的精细化管理需求，消除了工具孤岛和协作断层；
提供一个平台让研发、数据科学、算法开发和运维团队可以高效协作；
通过版本控制系统实现代码、数据和模型的一体化管理，结合灰度发布和回滚机制保证迭代过程的可控性；
利用多环境CI/CD流水线、灰度发布和滚动升级策略加速模型上线速度；

统一接口与治理能力：

通过MCP协议整合AI系统中多样化的服务接口，解决外部调用分散的问题；
引入统一的鉴权机制，防止访问凭据的分散，增强安全性；
提供统一标准的MCP SDK，减少对接复杂度，提升集成效率；
借助MCP协议迅速接入外部公共服务，简化集成流程；
建立跨系统的调用链监控和日志分析机制，确保服务间的可靠交互。

自动化治理与合规审计：

将如《生成式人工智能服务管理暂行办法》、GDPR（通用数据保护条例）、HIPAA（健康保险可携性和责任法案）等法规要求纳入合规评估模板；
部署自动化引擎进行合规性检测，能够自动发现并修复因误操作引发的合规风险；
实施全链路操作留痕策略，为应对潜在的审计需求做好充分准备。

4. 成本：从"Token消耗"到"算力精细化管理"

成本不仅是衡量财务支出的核心指标，更是与系统架构设计、资源调度策略及模型选型紧密关联的关键因素。在生成式 AI 场景下，由于高性能 GPU 算力单位成本较高，架构设计所面临的成本挑战尤为突出，主要体现在以下三个方面：

挑战一：高性能计算卡（如高端 GPU）的采购与运维成本显著高于通用硬件。若缺乏系统性的成本治理机制，企业极易产生高额账单，并伴随严重的资源闲置与浪费。
挑战二：生成式 AI 模型通常依赖大规模、多模态数据集进行持续训练，导致数据规模呈指数级增长。同时，训练过程中产生的中间检查点、日志及最终模型参数均需持久化存储，进一步加剧了企业在存储容量与性能方面的成本负担。
挑战三：有效的成本优化依赖于对资源使用情况的全面可观测性。若缺乏对 GPU 利用率、存储访问模式、网络带宽消耗等关键指标的实时监控与分析能力，企业将难以识别资源浪费源头，亦无法实施精准的成本控制与优化策略。

为了帮助企业更好地实现成本与性能之间的平衡，阿里云提出了关注“token优化”、“算力调用方式”和“算力管控”的三大成本优化点，并通过精细化管理来达成这一目标。具体策略如下：

GPU 算力成本优化：

结合不同规格的GPU/CPU节点，通过动态分配，在训练与推理任务间灵活切换算力资源；
使用云上的闲置算力资源运行非关键或具备容错能力的任务，以提高资源利用率；
跨团队共享GPU集群，提升整体资源使用效率；
在推理场景中采用轻量级模型版本、批处理调用、上下文缓存及请求合并等技术，显著降低单位推理成本。

分层资源管理：

将高频访问的数据（如训练数据、推理缓存）放置于高性能存储系统，而低频数据（如历史模型、归档日志）则迁移至低成本存储，同时匹配相应的计费模式；
对于稳定任务，建议采用包周期模式以降低总体支出；实验性任务则应选择按需或竞价实例，减少不必要的开支；
支持基于需求的动态扩缩容，确保在空闲期间自动释放资源，避免浪费。

可观测性与优化工具：

通过统一平台追踪包括GPU利用率、存储冷热分布、网络带宽在内的各项指标，识别并解决诸如GPU空转、数据冷热不均等问题，推动策略优化；
构建全面的成本透明化监控体系，促进精准的成本控制和优化；
按照项目、团队或模型维度拆解成本数据，明确责任归属，助力精细化治理。

模型复用与迁移学习：

优先考虑复用预训练模型，减少重复训练带来的算力消耗；
基于开源或商业模型库进行微调，快速适应特定应用场景；
应用量化压缩权重、蒸馏学习大模型输出以及剪枝冗余参数等技术手段，实现模型小型化；
鼓励复用已有的模型资产，避免大规模重新训练，从而节省算力开销。

5. 性能：从"高并发"到"用户体验导向"

在生成式 AI 应用中，性能是决定用户体验与成本效率的核心要素。无论是大规模模型训练，还是高并发在线推理服务，均需在算力利用率、数据流处理效率、响应延迟等多个维度之间实现精细化平衡。

然而，当前生成式 AI 的性能设计仍面临若干关键挑战：

挑战一：缺乏性能水平评估准则。性能指标是衡量系统效率的基础依据。与传统数字化系统不同，生成式 AI 尚未形成业界广泛认可的标准化性能评估体系。现有指标（如吞吐量、延迟、Token 生成速率等）往往因场景、模型架构或部署环境而异，难以横向比较，制约了性能优化的可度量性和可复现性。
挑战二：推理性能优化严重依赖推理框架自身能力。尽管主流开源推理框架（如 vLLM、TensorRT-LLM、TGI 等）显著简化了生成式 AI 模型的部署流程，但其性能表现高度依赖框架自身的调度策略、内存管理机制和算子优化水平。这使得推理服务的性能调优不仅门槛高，且技术复杂度大幅提升，企业需深度理解底层框架才能实现高效优化。
挑战三：训练性能优化缺乏有效 Profiling 手段。大模型训练涉及计算、通信、存储与调度等多个子系统，常见瓶颈包括 GPU 计算效率不足、跨节点通信开销高、数据加载延迟以及资源调度不均衡等。然而，目前尚缺乏能够覆盖全流程、直观呈现各环节性能瓶颈的统一 Profiling 工具，导致训练性能优化往往依赖经验试错，效率低下且难以系统化。

为了实现AI性能的全面优化，阿里云强调需围绕用户体验为核心，并关注包括GPU算力、显存容量、卡间通信带宽在内的关键性能瓶颈。性能优化不仅依赖底层硬件的提升，还需要数据流架构、分布式训练框架、推理服务化设计与调度平台的全链路协同合作。

高效的数据流与存储架构：

通过采用弹性扩展的对象存储与高并行文件系统等技术实现海量数据的高并发读写能力；
实施冷热数据分层管理，将高频访问的数据放置于高性能存储介质上，而低频数据则归档至低成本存储层，以优化成本和性能；
通过近数据计算，将计算任务靠近数据节点执行，减少网络传输带来的延迟和开销；
建立数据一致性校验机制，确保在分布式环境下数据的准确性和一致性，为后续处理提供可靠的数据基础。

分布式训练框架优化：

实施同步/异步训练策略决策，根据实际需求选择合适的训练策略，并利用梯度压缩与通信合并等技术降低带宽消耗，优化节点间的网络互联效率；
建立弹性训练机制，支持节点动态加入或退出，提高训练过程的灵活性和资源利用率。
结合具体训练任务的特点，选择最合适的优化策略；
使用专业的性能分析工具量化训练过程中的性能瓶颈，为优化提供科学依据。

大模型推理优化：

通过蒸馏、量化、剪枝等手段缩小模型规模，同时保持性能；
利用专用芯片加速推理速度；
平台化管理推理服务，支持多租户隔离、弹性伸缩与负载均衡，提升服务稳定性和响应速度；
采用KV缓存、PD分离等技术进一步优化推理服务的架构；
实现动态批处理与流批混合推理，适应不同的业务场景需求，实现灵活高效的推理服务。

智能调度与算力优化：

整合多种类型的计算资源，提供一致化的管理和调度能力；
根据任务的优先级、SLA要求及实时负载情况智能分配算力资源；
支持算力资源的自动扩展和收缩以及任务的智能迁移，提高资源利用率；
借助Profiling驱动的方法，优化资源使用，提升整体效率；
应用算子融合、注意力机制优化、稀疏激活和专家模型等方法，进一步提升算法执行效率。

三、立即行动，开启AI卓越之旅

生成式AI正以前所未有的深度和广度重塑企业的业务模式与技术架构。面对从数据安全、算力保障到模型供应链、Responsible AI等多重挑战，阿里云将把经典的五大支柱——安全、稳定、效率、成本与性能——在生成式AI场景中系统性延展与升级，为企业提供覆盖AI全生命周期的架构参考与最佳实践。这不仅帮助企业在快速演进的技术浪潮中有效控制风险、提升效能，更为生成式AI的规模化落地筑牢根基。未来，阿里云将持续深耕AI原生基础设施、大模型能力及配套工具体系，助力企业从容应对日益复杂的合规与业务融合需求。我们坚信，生成式AI不仅是技术的跃迁，更是企业数字化能力的再进化——通过阿里云卓越架构方法论，企业将真正实现从“用好云”到“用好AI”，迈向AI卓越的新纪元。

《生成式AI卓越架构设计指导原则》已正式发布，阿里云诚邀广大企业共同探索AI卓越架构。