如果将AI系统视为一个有生命周期的产品或工程,其过程可划分为四个阶段:大规模数据处理、模型训练、模型推理以及AI Agent应用落地。结合阿里云在开源社区的技术实践经验和多个行业的落地案例来看,这四个阶段既共享一系列底层技术能力,同时也因所处环节差异而呈现出不同的技术需求。
以Ray作为高性能分布式计算内核,执行数据处理任务;ACK调度器统一管理CPU、GPU及不同Compute Class的混合资源,结合任务队列,批调度,弹性伸缩等机制实现细粒度任务调度、弹性伸缩及优先级保障。
ACK/ACS引入多层次拓扑感知调度机制,包括节点内CPU Numa、PCIE和Scale-Up网络NVLink拓扑感知,节点间的Scale-Out RDMA网络拓扑感知,优先将需要高带宽通信的Pod调度到同一交换机或节点内并进行合理的顺序排布,优化任务集合通信效率。
采用CNCF开源项目Fluid构建分布式缓存,将远端数据集按需缓存至计算节点,支持数据预热、多级缓存,为训练任务提供接近本地磁盘的读取性能,同时满足动态扩容数据访问带宽的需求。
实现基于显存和算力维度的GPU容器共享与隔离,将单张物理GPU切分为多个逻辑实例,供多任务高效利用;同时提供多租户配额与公平调度机制保障关键任务资源。
通过多层次拓扑感知调度、本地化数据加速以及GPU精细化共享三个方向的优化,使得训练阶段的资源与任务匹配更加高效:
utside;" class="list-paddingleft-2">拓扑感知调度实现了亚秒级的通信延迟最小化计算,显著提升分布式训练的同步效率,典型的Allreduce算子性能提升30%;
Fluid分布式缓存将远端数据加载延迟缩短了90%以上,带来更高的GPU MFU;
GPU容器将物理卡切分为多个逻辑实例,资源利用率提升3~5倍,并结合多租户配额与公平调度机制保障关键任务优先运行。
生产环境数据显示,大模型训练的整体时间成本下降显著,600GB级训练数据集加载速度提升至原来的10倍以上,综合算力成本降低超过40%,有效实现了从“可运行”到“最优运行”的性能跨越。
大模型的能力经过长期训练已趋成熟,但从技术落地的角度看,模型能力的成熟并不意味着应用可以无障碍运行在企业生产环境中,因此“如何高效落地推理服务”成为核心课题。
首先深入理解推理过程的内部结构来看,一次完整的推理请求可分为Prefill和Decode两个阶段:
utside;" class="list-paddingleft-2">Prefill阶段计算提示词(Prompt)的KV值,特征为计算密集型;
Decode阶段需要存储此前计算得到的全部KV值,特征为显存密集型。
当两个阶段在同一GPU上运行时,由于两者在资源使用上互相排斥,导致一个阶段必须等另一个阶段释放GPU计算/显存资源后才能继续,从而无法并行利用GPU,导致总体响应时间加长、性能下降。
除此之外,大规模部署推理服务时还会普遍遇到以下难题:
utside;" class="list-paddingleft-2">部署架构多样性:开源社区提供的多种Prefill-Decode分离方案(vLLM、SGLang、Mooncake、Dynamo等)在组件构成、部署方式和配置要求上存在差异,用户选择与运维复杂度高。
启动与加载延迟:超大模型镜像和模型权重文件加载耗时可长达数十分钟,造成严重的推理服务冷启动现象,影响业务响应速度。
高并发与长尾响应稳定性:在峰值访问或复杂上下文场景下,响应延迟波动大,影响模型服务SLA。
GPU稳定性风险:长周期运行中易出现GPU hang、驱动崩溃、显存异常等问题,导致服务中断。
为了解决这些问题,阿里云推出ACK AI Serving Stack套件,以ACK为统一底座,集成推理框架管理、智能流量路由和分布式缓存加速等能力,解决管理LLM推理服务整个生命周期中的挑战。
在ACK AI Serving Stack的技术体系中,三大关键组件协同提供核心能力。
支持一键部署多种开源PD分离框架,灵活、动态配置Prefill/Decode比例以满足不同SLA,并可实现多推理引擎的统一运行时抽象(InferenceRuntime)。
ACK Gateway with Inference Extension(GIE)
专为AI推理深度优化的请求调度与负载均衡能力,通过精准的前缀缓存感知调度,显著提升KV缓存命中率,大幅提升LLM服务的推理吞吐量,降低端到端延迟,显著优化了推理成本。
构建分布式缓存,将远端模型文件预热至节点本地,实现零冗余、高速启动。
在实际应用中,这套技术体系在部署统一性、响应性能和稳定性保障方面实现了多项突破:
utside;" class="list-paddingleft-2">多推理框架一键部署和推理服务全生命周期管理,降低运维复杂度;
动态调整Prefill/Decode容器比例,确保响应时间、吞吐量等关键指标符合SLA要求;
前缀感知流量路由将长尾场景下的首包延迟提升约73%,响应速度总体提升约40%;
基于Fluid的分布式缓存和模型预热能力,超600GB级模型加载时间由40分钟降至不足4分钟(延迟减少约90%);
GPU故障检测和自愈机制显著降低MTTR(平均修复时间);
在线AI Profiling将GPU应用性能瓶颈定位效率提升约50%。
这些突破使模型推理服务能够在生产环境中实现高效启动、稳定运行和持续优化,为最终用户提供更快、更稳定的AI应用交付体验。
随着大模型在训练和推理能力上的持续提升,AI的应用形态正从“被动响应”向“主动执行”演进。越来越多的企业开始构建具备自主规划、工具调用和多步任务完成能力的AI Agent,用于客户服务、数据分析、自动化运维等场景。
与以批处理为主的训练过程及部分推理场景不同,AI Agent具备实时交互、多工具调用、多步骤任务等运行特性。这些特性虽然沿用了推理系统的性能与架构基线,但同时对底层基础设施提出了更高要求——尤其是在业务安全隔离能力、并发弹性扩缩能力以及长周期任务的状态持久化能力方面,都需要系统性优化:
utside;" class="list-paddingleft-2">更安全隔离的环境:避免攻击者通过提示词⼯程诱导Agent执⾏恶意行为,如访问敏感数据、发起⽹络攻击、执⾏恶意代码、越权操作风险。或模型产生幻觉,执行删除根目录的错误指令。
更大规模的弹性:大模型驱动的智能体应用,可能会有1个Agent循环调用工具执行,甚至多个Agent协作调用工具执行的场景,弹性需求被放大。
长周期/多步骤/强状态的特性:沙箱的状态需要保持并且成本需要更合理的控制。
那么,如何构建可靠的Agent运行环境?ACS针对AI Agent场景进行了系统性优化,实现了强安全隔离、大规模弹性以及状态保持功能等升级。
使用ACS创建代码/浏览器/桌面沙箱,默认计算环境强安全隔离,再基于Network Policy、Fluid等能力增强,实现了从运行环境到存储、网络的端到端安全隔离。
ACS新发布了镜像缓存加速功能。基于云盘快照的技术,可以支持千Pod秒级镜像加载。再结合用户负载特征的沙箱资源预调度优化,实现15000沙箱/分钟的大规模并发弹性,让业务更放心按需弹性用云。
ACS即将发布沙箱状态保持的能力,支持沙箱一键休眠和快速唤醒。在休眠期间,沙箱的CPU和内存资源释放,降低休眠期间的资源成本;同时,也可以基于用户请求快速唤醒沙箱,将沙箱的内存状态保持,完整恢复到您休眠前的沙箱环境,实现在成本与体验之间找到最佳平衡。
此外,ACS性能型实例单核性能最高提升24%,现有客户无需修改任何代码即可平滑享受性能红利,进一步提升各类Agent负载的运行效率。
这些能力已在实际应用中验证:即使面对瞬时高并发、复杂任务链和长时间运行场景,平台仍能提供稳定、安全、高效的执行环境,为下一代智能体应用的大规模落地提供了坚实支撑。
总的来说,阿里云容器技术体系在以下方面显著领先。
支持对GPU算力和RDMA网络资源的高效调度,原生支持AI任务调度,支持GPU精细化共享与隔离,内置网络拓扑感知调度,提升集群资源利用率与运行效率;支持公共云、混合云、本地IDC、多云异构算力的统一管理和灵活的弹性伸缩;
覆盖数据处理、模型训练、推理等全过程,通过分布式缓存和数据亲和性调度,加速训练数据和模型数据访问。同时具备丰富的监控和诊断能力,及秒级故障检测与自愈能力,确保AI服务在长周期运行中的稳定性与可预期响应。
针对AIAgent等多工具调用、高并发访问的场景,提供安全沙箱、状态持久化和分钟级大规模弹性创建能力,有效防范高危指令执行与资源滥用风险。
在Argo Workflows(超大规模任务编排)、Fluid(分布式数据加速)、Koordinator(面向AI应用与大规模混布的调度器)、RoleBasedGroup(AI推理工作负载管理)等项目中提供核心功能升级,并在多项技术成果中反哺开源社区,推动AI工作负载管理的标准化。
更多开源项目细节:
Argo Workflows:https://argoproj.github.io/workflows/
Fluid:https://fluid-cloudnative.github.io/
RoleBasedGroup(RBG):https://github.com/sgl-project/rbg
Koordinator:https://koordinator.sh/
这种自底向上的全链路技术优势,可以帮助企业在AI原生时代不仅能够支撑企业实现AI应用的稳定运行,还能在性能优化与成本控制方面持续提供行业领先的基础能力,为构建未来AI基础设施的标准形态奠定了可靠基础。
目前,阿里云容器已在国内多个行业的AI场景中规模化落地,服务月之暗面Kimi、小鹏汽车、MiniMax以及有鹿机器人等一众客户。
阿里云容器的技术能力也获得了权威机构的高度认可。
Gartner®公布2025年度《容器管理魔力象限》报告,阿里云入选“领导者”象限,是亚太地区唯一连续三年入选“领导者”象限的中国科技公司。并且在Gartner®公布2025年度《容器管理关键能力》报告中,阿里云在AI工作负载场景中排名全球第三。
同时,IDC《中国容器市场份额,2024:从云原生到AI原生》报告表示,阿里云以26.6%的占比稳居2024年中国容器市场整体市场份额第一,连续3年蝉联榜首。在细分的公有云容器市场,阿里云以30.5%占比,位居第一。报告中,IDC高度认可了阿里云在容器领域的技术实力,评价其具备领先的全栈容器能力。
此外,在美国亚特兰大举办的KubeCon+CloudNativeCon北美大会现场上,云原生计算基金会®(CNCF®)公布阿里云成为全球首批通过v1.0版本认证的厂商之一。该认证意味着阿里云Kubernetes平台在运行业界主流AI框架及生产级AI应用时,能够为客户提供一致的部署体验与稳定的跨环境性能。
未来,AI技术将持续驱动各行业数字化升级,对基础设施的要求也会不断提高:更大的模型规模、更复杂的任务链、更严格的安全隔离,以及更短的迭代周期,都意味着底层技术必须持续演进。阿里云容器将在性能、稳定性、安全性、成本控制上持续优化,为AI原生时代提供更加坚实的支撑,使企业能够在不断变化的技术浪潮中,稳健前行、共创价值。