大模型主战场从训练转向推理,已经成为业内共识。越来越多的公司已经开始设计符满足企业内部需求和外部商业方向的大模型应用,并在生产环境中进行部署。这个过程中,我们遇到了一系列新的需求,这些需求与最初的大模型应用在 “概念验证阶段” 有所不同。这些新需求更多地源于对规模化和安全使用,其中,AI 网关成为被讨论较多的 AI 基础设施关键组件之一。
我们认为 AI 网关并不是独立于 API 网关的新形态,本质也是一种 API 网关,区别在于针对 AI 场景的新需求专门做了扩展,它既是 API 网关的继承,也是 API 网关的演进。因此我们从 API 视角,对 AI 网关的能力做了分类,便于形成概念的共识。
由于围绕 API 提供的网关能力繁多,涉及的角色众多,我们将所有能力基于使用方进行分类,包括研发、供应和消费场景三大场景,分别对应 API 接口的研发团队、API 平台的研发和运维团队、API 平台的外部调用方。
API First 是先定义好 API 规范,再 code。不同于不定义 API,直接 coding,API First 强调的是在构建应用程序之前优先设计和开发 API 接口,将 API 视为系统的核心架构组件,通过定义良好的接口规范实现模块化。例如公共云的云产品都提供了 API 的调用方式,微信小程序、钉钉开放平台也面向开发者提供了 API 接口,类似乐高积木的模块化系统,通过标准接口实现服务间的灵活组合,提升系统的可扩展性和维护性,从而提升生态效率。
API 供应场景指 API 提供方(如企业、平台或服务)通过标准化接口对外暴露数据或功能的过程。其核心是创建、管理和维护 API,确保其可用性、安全性和高效性。核心能力包括:
API 消费场景指调用方(如应用、开发者)通过集成外部 API 快速实现功能或获取数据的过程。其核心是使用平台方提供的能力或数据,实现业务需求。
- 调用审计:对 API 的调用活动进行全面记录、监控和分析的过程。它会详细记录每一次 API 调用的相关信息,包括调用时间、调用方身份、调用的 API 接口、请求参数、响应结果、响应时间等。
- 调用方配额限速:指 API 网关根据预先设定的规则,对每个调用方(如用户、应用程序、IP 地址等)在一定时间内对 API 的调用次数、流量大小或资源使用量进行限制的机制。
- 后端保护式限流:对 API 的访问流量进行管理和控制,确保 API 能够稳定、高效地运行,避免因流量过大或异常流量导致的系统崩溃和性能下降,包括负载均衡、限流、降级、熔断等能力。
在大模型场景下,大模型通过 API 对外提供服务,因此研发场景、供应场景、消费场景都出现了更加丰富的诉求。
API First 或者 API 是一等公民不再是一种口号,而是逐步成为实实在在的应用开发规范。Agent 的开发和运行,要调用 API,Agent 通过开放平台形式提供对外服务,也要提供 API。API 网关可以覆盖 API 的设计、开发、测试、发布、售卖、运维监测、安全管控、下线等各个生命周期阶段,企业的诉求将更为强烈。基于 API 网关,还可以提供多个插件能力,提升 Agent 开发效率,例如 AI 提示词模版 [1],API AI Agent [2],Json 格式化 [3],用于根据默认或用户配置的 Json Schema 对 AI 的响应进行结构化等等。
得益于 Wasm 插件的动态扩展能力,Higress 在 AI 时代快速演进并发展 AI 网关能力。本文提到的大模型 API 管理底层能力,均已经在开源 Higress 和阿里云云原生 API 网关上线:

阿里云云原生 API 网关控制台
同时在阿里云云原生 API 网关上我们提供了 AI API 管理能力,可以更便捷更高效地管理 AI 时代的 API:
