链载Ai

标题: 3个月,上百家企业交流,和大家聊聊AI应用的落地实践(开篇) [打印本页]

作者: 链载Ai    时间: 1 小时前
标题: 3个月,上百家企业交流,和大家聊聊AI应用的落地实践(开篇)

开篇




Cloud Native


4 月初,我和大家分享了阿里云云原生团队在MCP 范式构建新一代 AI 应用架构" data-itemshowtype="0" linktype="text" data-linktype="2">基于 MCP 范式构建新一代 AI 应用架构的整体思路,这段时间我们与很多客户进行了交流,也一直在讨论。虽然这个思路大家普遍认可,但之前的核心还是围绕着网关在构建。如果站在 AI 应用的角度,其实缺失了运行时部分,也就是 AI Agent 的构建方案。


经过 3 个月的产品打磨和众多客户真实需求及场景的了解,我们发现,企业希望自己的业务被 AI 赋能的诉求是强烈的,但是在构建企业级 AI 应用,或者使用 AI 赋能现有业务方面,大多数企业是不知道从哪里下手的,都是只有一些碎片的知识点,尤其是对现存业务、Agent、LLM、MCP 服务、AI 可观测这几者之间如何有机协作是模糊的。


所以我基于当前阿里云云原生产品的能力、解决方案、和客户共建汲取的经验、企业的实际使用情况等,尝试理清楚完整的企业级 AI 应用构建的最佳实践,希望能带给有需要的企业一些帮助。


由于整体内容比较庞杂,我们将从 AI 应用的定义、AI 运行时、AI 网关、MCP、AI 观测等维度,通过系列文章的方式与大家交流。系列文章我们都将首发在阿里云云原生公众号,欢迎大家关注。


下面,就让我们从什么是 AI 应用开始聊聊。


什么是AI应用

Cloud Native


我们先来尝试定义什么是 AI 应用。


从“工具”到“智能伙伴”的进化



对于应用而言,我们早已不陌生,从桌面软件到手机 App,它们是帮助我们处理特定任务的工具。然而,当我们谈论“AI 应用”时,我们所指的已不再是简单的工具,而是一种全新的、能够模拟甚至超越人类部分认知能力的智能实体。


传统的软件应用遵循着一套预设的、固定的逻辑。它们是被动的执行者,严格按照人类编写的规则运行。你点击“保存”,它就执行保存操作;你输入公式,它就计算出结果。其本质是一个高效的指令处理器。


而企业级的 AI 应用,则标志着一场根本性的范式转移。它不再仅仅被动地“听令”,而是能够主动地“理解”、“思考”和“行动”。想象一下:



在这些场景中,AI 应用扮演的不再是冰冷的工具,而更像一个不知疲倦、知识渊博、反应迅速的“智能伙伴”或“数字员工”。这便是 AI 应用的魅力所在,也是其核心价值——将人类从重复性、流程化的工作中解放出来,聚焦于更高层次的创造、决策和战略规划。


那么,是什么赋予了 AI 应用如此强大的“智能”?


AI Agent + LLM 的双引擎模式



在 AI 应用中,LLM 扮演着认知核心,也就是“大脑”的角色。它负责处理所有与“思考”相关的任务:



简而言之,LLM 为 AI 应用提供了“智商”。然而,仅有“思考”能力是远远不够的。一个只能在“脑中”规划万千大事却无法付诸行动的大脑,在商业世界中价值有限。所以要让智慧落地,就需要 AI Agent 这个“执行官”的登场。


AI Agent 赋予了 LLM “手和脚”,让“思考”得以转化为“行动”。如果说 LLM 负责“思考做什么”,那么 AI Agent 则负责“如何去完成”。它的核心职责包括:



AI Agent + LLM的组合,创造了一个既能深思熟虑又能高效行动的完整体。LLM 的智慧通过 Agent 的执行力在真实世界中产生了切实的业务价值。这正是现代 AI 应用区别于过去所有软件的根本所在。


企业能力的核心 - MCP 服务



AI Agent 的强大,并不在于其自身,而在于它能调动多少“资源”和“能力”。一个无法连接任何真实业务系统的 Agent,就像一个被关在“信息茧房”里的天才,空有智慧却无处施展。因此,为了让 AI Agent 能够真正在企业环境中大展拳脚,我们需要让其学习和成长。


我们构建 Agent,就好比我们玩角色扮演游戏,比如在博得之门里创建的角色,他/她有种族、职业、背景、属性点、技能和初始能力。但只有这些基础的初始能力是无法立足在充满危险的被遗忘的国度的。所以角色需要成长和学习新的技能,而同样是一名初始法师,随着学习的技能不同,会成长为不同能力的法师,比如学习了严酷收割、亡灵仆役等技能的死灵法师。学习了造水术、蛛网术的咒术法师。学习了火球术、闪电束的元素法师等等。


在大多数的角色扮演游戏中,都有着完善的技能系统。在今年年初,若想要给 AI Agent 构建技能系统和体系是有着很高成本的,AI Agent 要学习一项新技能(即使用一个新工具),开发者可能需要做两件成本很高的事:



然而一家客户的沉淀短则几年,长则十几年,内部已经有茫茫多的系统、服务、接口,也就是这些技能都是现成的,且都是上古秘法,没法改,也没人会改。那么就得改 AI Agent,带来的后果就是几乎没有复用性、没有扩展性、开发成本非常高。


所以 MCP 的出现,很好的解决了构建 AI Agent 技能系统的痛点问题:



所以,MCP 服务是企业 AI 应用的基石。它将企业零散的 IT 资产和服务,转化为 AI 可以理解和调用的标准化能力,从而为上层的 AI Agent 源源不断地输送技能。


构建 AI 应用的两种路径:全新开发 vs. 存量改造



在理解了 AI 应用的内在构成后,我们面临一个实际问题:如何将它构建出来?从逻辑上看,企业构建 AI 应用的路径主要有两条:


1. 全新开发:开创业务新大陆


这指的是从零开始,为一个全新的业务场景或颠覆性的产品构想,原生设计和开发 AI 应用。这种模式不受历史技术债务的束缚,可以采用最先进的架构,最大化地发挥 AI Agent 的能力,是实现颠覆式创新的最佳路径。例如,打造一个面向金融行业的 AI 研究分析师,或者开发一个企业内部的“超级知识入口”。


2. 改造现有业务:为核心引擎注入 AI 动力


这是绝大多数企业会选择的路径。它指的是在企业现有的、成熟的核心业务系统(如 ERP、CRM、SCM)中,嵌入 AI Agent 的能力,对其进行“智能化升级”。这种方式能直接作用于核心业务流程,价值释放路径更短、更明确。



在我们和众多客户的交流中来看,改造现有业务,本质上是将业务入口从请求到传统服务改为请求到 AI Agent。


AI 应用基本架构



一个真正的企业级 AI 应用,是一个由“LLM 大脑”提供智慧,由“AI Agent 执行官”负责行动的智能系统。它的能力边界,取决于企业为其打造的 MCP 服务有多强大,数量有多少。而它的落地形式,既可以是开疆拓土的全新创造,也可以是为现有核心业务的深度赋能。理解这一全景,是开启企业 AI 转型之旅的第一步。


如我上文所说,大多数客户的诉求都是 AI 赋能现有业务,也就是将业务入口从请求到传统服务改为请求到 AI Agent,现存的传统服务都可以转为为 AI Agent 赋能的技能库。



所以将 AI 应用架构拆开来看,整体架构及调用链路如下图所示:




图中的8 步核心调用链路解析:



实际生产中 ③ - ⑧ 步会多次循环交互。




所以从组成结构来看,AI 应用的核心有四点,AI Agent、LLM、MCP 服务、AI 观测体系。并且核心中的核心是 AI Agent,因为用户、LLM、MCP 服务都是靠 AI Agent 连接的,AI 观测体系也是会以 Agent 为枢纽。本文后续也是持续围绕这四个核心的要素,和大家探讨如何实践落地上述架构。


AI Agent 概述

Cloud Native


同样,我们先来定义什么是 AI Agent,所谓“一千个人眼中就有一千个哈姆雷特”,大家对 AI Agent 的认知都不一样。Agent 可大可小,比如一套复杂的系统可以认为是一个 Agent,一个流程也可以认为是一个 Agent,甚至一行代码也可能被认为是一个 Agent。那么 AI Agent 到底有没有定义呢?


其实 AI 御三家(Google,Anthropic,OpenAI)在 AI Agent 白皮书里都有定义,并且都有共性,我们可以从三个白皮书中抽象出 AI Agent 的定义。


Google AI Agent 白皮书【1】

Anthropic AI Agent 白皮书【2】

OpenAI AI Agent 白皮书【3】


什么是 AI Agent

Cloud Native



一个 AI Agent 其实是一个系统,包括以下三个核心内容:



AI Agent 和 Chatbot 的最大区别是前者可以解决需要通过不同领域的知识和能力协同才可以解决的问题,通俗地说就是复合的、复杂的、多步骤的问题。


来看看 Google AI Agent 白皮书对 AI Agent 的定义:



来看看 Anthropic AI Agent 白皮书对 AI Agent 的定义:



来看看 OpenAI AI Agent 白皮书对 AI Agent 的定义:



所以 AI Agent 断然不可能是几行代码写的程序,而是一个相对复杂的系统。


AI Agent 核心组件



一个 AI Agent 的构成有 4 个核心组件:



Google 定义的 AI Agent 架构:



Anthropic 定义的 AI Agent 架构:



OpenAI 定义的 AI Agent 的核心组件:



AI Agent 推理模式


目前 AI Agent 的推理模式大体分为三类:



ReAct 模式



ReAct 是目前被验证最通用的 AI Agent 模式。需要具备以下四个要素:



Google 对 ReAct 的定义:



AI Agent 通用推理模式


ReAct 模式是目前从效果、通用性方面来说比较好的模式,基于该模式,我们可以抽象出 AI Agent 的通用模式,或者说构建 AI Agent 能力需要具备的核心要素。也许不同的领域,不同的业务场景可能需要基于 ReAct 模式做微调,但无论如何,都需要考虑 AI Agent 通用模式里的 6 大核心要素。



提示词链路(Prompt Chaining)


AI Agent 里的提示词链路其实本质上就是 Agent 内部的工作流,它将一个任务分解为一系列步骤,上一个任务的输出是下一个任务的输入,每个任务可能都会和 LLM 进行交互。


这种方式比较适合可以将任务清晰地分解为固定子任务的场景。比如市场营销、广告活动、CRM/ERP 中的问数流程等等。


Anthropic AI Agent 白皮书中对 Prompt Chaining 的定义:



Google AI Agent 白皮书中有编排层的概念:



路由(Routing)


AI Agent 里路由的作用是对输入进行分类,并将其导向一个专门的后续任务。这种模式可以使关注点分离,并构建更专业的提示词。


路由非常适用于那些具有明显不同类别、可以更好地分开处理的复杂任务(无论是通过 LLM 还是更传统的分类模型/算法)。最常见的场景就是智能客服,将不同类型的客户服务查询(一般问题、退款请求、技术支持)引导到不同的下游流程、提示和工具。


Anthropic AI Agent 白皮书中对 Routing 的定义:



使用工具(Tool Use)


工具是 AI Agent 与外部系统(例如 API)交互的关键。尽管基础模型在文本和图像生成方面表现出色,但目前它们依然无法与外部世界直接交互,或者说快速、低成本的交互(LLM Function Calling 受限 LLM 厂商的迭代)。工具弥补了这一差距,使 Agent 能够访问外部数据和服务,并执行超越底层模型自身能力的各种操作。而 MCP 的出现使得这个环节的能力、便利性、扩展性等有了质的提升。


Anthropic 在增强型 LLM 的构建块中强调了工具的使用,以及工具开发的最佳实践:



OpenAI 对工具做了专门的定义:



Google 详细介绍了工具(Extensions, Functions, Data Stores)及其在 Agent 架构中的作用:



评估循环(Evaluator Loops)


评估循环指的是一个 LLM 调用生成响应,而另一个 LLM 在循环中提供评估和反馈。这种循环可以使 AI Agent 进行自我修正,甚至可能使用不同的 LLM 来协助修正。这种方式适用于具有明确评估标准,并且迭代改进能够带来可衡量价值的场景。

在翻译场景会常用到这种评估的模式,因为用来翻译的主 LLM 最初可能无法捕捉到细微差别,但评估 LLM 可以辅助提供评估信息,然后翻译 LLM 做修正。还有联网搜索或深度研究这类需要多轮搜索和分析的场景,也会用到这种评估模式,其中的评估 LLM 决定是否需要进一步搜索等。


Anthropic AI Agent 白皮书中专门介绍了评估循环这个模式:



OpenAI AI Agent 白皮书里虽然没有明确说明评估循环这个模式,但是提出了护栏(Guardrails)概念,这部分也体现了类似的思想,例如通过批评节点评估 Agent 输出是否符合预期并进行重试。



协调器(Orchestrator)


AI Agent 协调器的作用是一个负责协调的 LLM 接收复杂任务,将其委托给工作器 LLM,并综合它们的结果。这适用于一个 AI Agent 管理其他 AI Agent 的场景。


这个场景和并行执行任务在拓扑结构上有点类似,但也有区别,这种模式更加灵活,因为子任务不是预先定义的,而是由协调器根据特定输入确定的。这种模式适合无法预测所需子任务数量的复杂任务。


Anthropic AI Agent 白皮书中详细介绍了“协调器”:



OpenAI 的“管理器模式”也描述了类似的架构,其中一个中心“管理器” Agent 通过工具调用协调多个专业 Agent:



自主循环(Autonomous Loops)


AI Agent 系统是由 LLM 动态指导其行为和工具使用,保持对如何完成任务的控制的系统。自主循环指的是 AI Agent 初始接受人类的指令,会明确任务,一旦任务明确,Agent 会独立规划和执行行动,直到返回人类最终的答案。


这种模式用于难以或不可能预测所需步骤数量,且无法硬编码固定路径的开放式问题。比较典型的就是 Chat 场景里的深度研究(DeepSearch)和 AI 编码场景。以及像 Manus 这种 Planning 的方式也是类似自主循环的模式。


但这种 AI Agent 的自主性有两个最大的问题:



解决这两个问题,业界也已经有较为成熟的方案,用一句话来总结:使用资源/数据隔离的沙箱环境来运行/训练/强化学习 AI Agent 的特定能力。


Anthropic AI Agent 白皮书里讨论了自主 Agent 的适用性和风险:



AI Agent 安全与防护


最后我们来看在任何时代,任何领域都非常核心的安全与防护,在 AI 时代同样不例外。大体可以抽象为四个方面:



AI Agent 的构建模式

与 AI Agent 类型

Cloud Native



目前构建 AI Agent 的方式大体可分为两类:



基于不同的客户类型和业务场景,AI Agent 的类型又可以大体分为三类:



总结




Cloud Native



至此,我们基本上了解了 AI 应用的定义,AI 应用的核心是什么,以及 AI Agent 的定义和推理模式。在如何构建 AI Agent 方面,在这个系列中,我们不会详细聚焦在本文中提到的如何通过编码的方式实现上述的六类推理模式,因为每个客户使用的开发语言不同、每个构建 AI Agent 的综合框架的使用方式不同。更重要的是这些推理模式的实现往往和客户的业务场景,客户的运维研发体系是强相关的。


另外,现如今,LLM 的 Coding 能力都是不弱的,Vibe Coding 的概念目前也是如火如荼,开发程序的门槛几乎已经触底。所以现在最简单的事反而就是写代码,但最难的事是让这坨代码能真真正正的承载业务并运行在线上。


所以本文核心聚焦在当客户想要实现某一类型的 AI Agent 时,该如何选择和使用 AI Agent 最合适的运行时,这一类的 AI Agent 都应该注意哪些核心问题,构建 AI Agent 的核心组件时该如何将上下游产品有机结合起来配合使用。






欢迎光临 链载Ai (https://www.lianzai.com/) Powered by Discuz! X3.5