【技术】Agent应用路线图

显示全部楼层

4月19日，我在Datafun上做了一期专题分享：Agent应用路线图

探讨Agent技术、企业落地路线图，覆盖了豆包、Coze业务中提炼出来的经验积累。

以下是文字版讲解，仅供参考。

分享大纲：

从LLM应用方法引申出Agent方案
介绍Agent基础知识，RL Agent与LLM Agent的区别
LLM Agent进化过程，架构设计方法
Agent 应用路线图
Agent 发展趋势，新技术（MCP/A2A/GUI Agent等）

（1）LLM 应用方法

之前做过6年多对话系统项目，深刻体会到ChatBot研发的“理想美好”（CUI）和“现实残酷”

对话式交互形式让人憧憬，而上一代pipeline技术栈又让人不得不面对现实，在业务需求与技术局限性中努力平衡。

详见往期文章：

【2023-10-16】内部分享文字版：大模型时代，对话系统何去何从？
【2024-11-14】IT-PUB 直播分享文字版：大模型时代对话系统（续）

LLM横空出世后，对话系统技术栈受到巨大冲击，让人既喜又惊：

2020年左右，各类chatbot（智能音箱/个人助理等）陷入困局，有多少人工，就有多少智能，一度被人戏称“人工智障”。有人断言，NLU方案只要还是“槽填充”，智障就无法避免。于是，ChatBot凉凉了。
2022年底，以ChatGPT为代表的LLM，凭借强大的理解、生成能力让人再次燃起希望，“喜”。
原来工业界主流的pipeline（流水线）架构与学术界demo级别的end2end（端到端）架构的地位互换，极简的自回归模式居然实现了end2end对话系统！
随之而来的是“惊”，技术架构大变样，过往的pipeline架构经验大部分作废，对话系统开发成本也大幅降低，以前20人，现在只需要2-5人。

是的，我被LLM卷到了！

大模型技术攻占了对话系统60-80%的江山。

原pipeline架构里，NLU/NLG基本都被占领，DM也丢失了一半，剩下的ASR/TTS也在逐步被多模态LLM替掉。

为什么会这样？

LLM引起NLP范式的巨大变化：

第三范式：2018-2022，以BERT为代表的pre-train+finetune 两阶段范式，下游根据任务单独微调才能使用。这个范式也才持续4年多。
第四范式：2023年之后，LLM开始提示学习，只需要根据需求设计prompt，就可以直接完成任务，无须微调模型。
第三范式到第四范式的快速切换，让大量NLP任务（底层/中层）“消失”，沉淀到基座LLM中，而NLP算法工程师被迫成了提示工程师。

实际上，第四范式的影响不止NLP，搜索、图像、视频、音频等都被波及。

接下来，大部分行业的大部分业务价值将被大模型拿走，已有应用需要按照LLM升级或重新设计。

详见：【拾象投研】大模型（LLM）最新趋势总结

大模型技术如何落地？

面对业务场景，不再是首选微调，而是提示工程（PE）、检索增强生成（RAG）、微调，以及复兴的Agent技术。

LLM应用范式区别：

从PE到RAG，FineTune（局部+全部），模型权重更新比重逐步提升，效果更好，但代价更大。

路线图如下：

路线：PE->Function Call->Workflow->RAG->Finetune->Agent
其中，Agent特殊，与LLM相对无关，离AGI更近。

详见往期文章：大模型落地技术路线图

（2）Agent 介绍

LLM是“缸中之脑”，只能解决离散、孤立的任务，特点是无时空依赖。

但真实场景中更多的是连续、环境捆绑的人物，这类任务LLM无能为力。

怎么办？AI Agent 连接了大模型与业务场景，充当了价值传递桥梁。

模拟人脑决策方式（PDCA），精心设计Agent（关键能力：感知、规划和行动），与环境持续交互，进而完成任务。

这个想法很早就有了，之前是强化学习（RL）驱动Agent，而现在成了LLM 驱动的Agent。

智能体Agent的复兴依赖LLM Agent的特性：

具备一定世界知识
初步推理、规划能力
工具适用能力
上下文学习等

什么是Agent？

Agent = LLM + Memory + Plan + Tool

分别概述核心模块：Memory、Plan和Tool

① Memory 记忆

LLM 本身没有记忆，每次请求都是无状态。

怎么办？模拟人脑记忆机制。

人类拥有DNA记忆、短期记忆、海马体记忆、皮层记忆、长期记忆，

分别模拟三种记忆方式：感知记忆、短期记忆和长期记忆

② Plan 规划：

两种常见方法：ReAct、Reflecting（改进）

更多：

•【2024-2-5】中科大Understanding the planning of LLM agents: A survey

③ Tool 工具

工具适用能力相当于给LLM装上“手脚”，具备行动能力。

典型实现方式是2023年上半年推出的函数调用（Function Call）

④ 多智能体

单智能体（Single-Agent）能力有限，难以处理复杂问题，此时需要借助多智能体（Multi-Agent）。

多智能体的自主性、容错性、灵活性更好，重点在于协作。

难点是如何组织Agent结构。

篇幅所限，不过多展开，更多Agent知识见往期文章：

大模型智能体 LLM Agent
Agent技术解读：Memory记忆模块
Agent技术解读：Planning（规划）模块

（3）Agent 设计

由于LLM本身的不足：无状态、不稳定，使用方式从直接调用升级到RAG、工作流（workflow），再到Agent，自动化程度逐步提升。

Saleforce论文总结了Agent两个维度上的发展趋势：

架构（横向）：独立LLM→单智能体→多智能体
性能（纵向）：推理加速（提示词优化）、推理效果提升（对应推理LLMs）

其中的关键组件是推理、评估和自我纠正。

详见：

【2025-4-12】SalesforceA Survey of Frontiers in LLM Reasoning: Inference Scaling, Learning to Reason, and Agentic Systems

论文有些晦涩，好在LLM顶级公司Anthropic的专家做了更详细、通俗易懂的报告

【2024-12-19】Anthropic：Building effective agents

图解如下：

整体趋势：传统工作流（重规则）→AI工作流（局部自动化）→Agentic AI（主体自动化）
工作流（workflow）的组织方式有多重：链式（串行）、路由分流、分总（并行）、总分总（协作）、自我进化（对抗）
多智能体结构：主从（协作）、层次（主从从）、分布式（对等协作）

组件选择依赖于业务场景，没有绝对的好坏。

进一步总结Agent应用模式演变过程：

随着自动化程度越来越高，最终会实现全自动智能体
其中，红框里部分是“Agentic AI”范畴，注意，增强型LLM包含在内。

各个模式的优缺点分析：

PE依赖：从单智能体开始弱化，直至自动智能体，提示词不再重要。
借助工具、记忆、规划等，LLM系统能力逐步增强，幻觉降低
应用场景逐步扩大

（4）Agent 应用

为了提升Agent设计效率，市面上有一堆Workflow、Agent编排系统：

Agent框架：MetaGPT、LangChain、AutoGen等
GUI 编排平台：Coze（扣子）、dify、LangGraph、n8n等

箭头表示依赖关系，绿色表示开源，红色是闭源。

GUI 平台重在低代码开发Agent，这类平台跟随LLM技术同步升级：

早期原生Prompt，通过限制格式来支持工具调用
接着，诞生Function Call，工具调用效率提升
工作流旨在提升主体流程的可控性，GUI降低门槛、提升开发效率
单智能体进一步把控制权从人交给LLM，多智能体充分发挥群体智能。

最后，呈现出多功能、多样式的交互形式：

Coze还新增“应用”模式，用户直接拖拽组装交互页面，类似小程序。

最近，还推出“Manus”复现版：Coze Space 扣子空间，提前实现自动化智能体。

详见：【产品】字节版“Manus”：Coze Space 扣子空间怎么样？

Agent设计经验：从易到难，逐步迭代

近期，OpenAI和Anthropic分别推出自己的Agent应用指南。

大体思路差不多，都建议根据业务场景渐进迭代，Agent并非首选，系统设计要精简。

（Anthropic经验比OpenAI更实在，值得仔细学习）

更多：

【2025-4-17】A practical guide to building agents
【2025-4-5】Anthropic：How We Build Effective Agents: Barry Zhang,

根据个人经验，整理Agent应用路线图：

说明：

从左往右，决策因素有：技术可行性、成本/速度要求、错误容忍度、任务复杂程度、流程确定性、角色数目等
根据自己的业务特性选择不同方案，一般以workflow+Agent为主。

注意：

不要贪心，结构复杂的Multi-Agent并非首选

因为，Agent本身也有局限性，Multi-Agent效果不一定好！

（5）Agent 发展

接下来，LLM Agent会怎么发展？

初步预估，会快速补齐已知短板，如：推理规划能力、工具效率、端侧设备操控、个性化信息感知、多模态交互等。

简而言之，基座LLM更强、工具调用更好、更加自动化。

其中，MCP和A2A解决了工具、Agent交互瓶颈问题。

MCP推出才4个月，已迅速成为行业标准。

刚推出不到两周的A2A，进一步加强Agent通信效率，破除数据孤岛。

怎么让Agent更加自动化？

除了Manus、GenSpark等实现方案，学术界也在快速推进，比如：ADAS通过Meta Agent Search自主“合成”Agent，而 MaAS 把机器学习里的AutoML引入到Agent框架设计中。

GUI Agent 继续提升Agent实用性，开始遍布各类终端设备：浏览器、操作系统、手机等。

LLM还在不断进化，一步步逼近AGI。