|
4月19日,我在Datafun上做了一期专题分享:Agent应用路线图 探讨Agent技术、企业落地路线图,覆盖了豆包、Coze业务中提炼出来的经验积累。
以下是文字版讲解,仅供参考。
分享大纲:
(1)LLM 应用方法
之前做过6年多对话系统项目,深刻体会到ChatBot研发的“理想美好”(CUI)和“现实残酷”
详见往期文章:

LLM横空出世后,对话系统技术栈受到巨大冲击,让人既喜又惊: 2020年左右,各类chatbot(智能音箱/个人助理等)陷入困局,有多少人工,就有多少智能,一度被人戏称“人工智障”。有人断言,NLU方案只要还是“槽填充”,智障就无法避免。于是,ChatBot凉凉了。 2022年底,以ChatGPT为代表的LLM,凭借强大的理解、生成能力让人再次燃起希望,“喜”。 原来工业界主流的pipeline(流水线)架构与学术界demo级别的end2end(端到端)架构的地位互换,极简的自回归模式居然实现了end2end对话系统! 随之而来的是“惊”,技术架构大变样,过往的pipeline架构经验大部分作废,对话系统开发成本也大幅降低,以前20人,现在只需要2-5人。
是的,我被LLM卷到了!
大模型技术攻占了对话系统60-80%的江山。
原pipeline架构里,NLU/NLG基本都被占领,DM也丢失了一半,剩下的ASR/TTS也在逐步被多模态LLM替掉。
为什么会这样?
LLM引起NLP范式的巨大变化: 第三范式:2018-2022,以BERT为代表的pre-train+finetune 两阶段范式,下游根据任务单独微调才能使用。这个范式也才持续4年多。 第四范式:2023年之后,LLM开始提示学习,只需要根据需求设计prompt,就可以直接完成任务,无须微调模型。 第三范式到第四范式的快速切换,让大量NLP任务(底层/中层)“消失”,沉淀到基座LLM中,而NLP算法工程师被迫成了提示工程师。

实际上,第四范式的影响不止NLP,搜索、图像、视频、音频等都被波及。
接下来,大部分行业的大部分业务价值将被大模型拿走,已有应用需要按照LLM升级或重新设计。
详见:【拾象投研】大模型(LLM)最新趋势总结 
大模型技术如何落地?
面对业务场景,不再是首选微调,而是提示工程(PE)、检索增强生成(RAG)、微调,以及复兴的Agent技术。

LLM应用范式区别: 
路线图如下:

详见往期文章:大模型落地技术路线图
(2)Agent 介绍
LLM是“缸中之脑”,只能解决离散、孤立的任务,特点是无时空依赖。 但真实场景中更多的是连续、环境捆绑的人物,这类任务LLM无能为力。 怎么办?AI Agent 连接了大模型与业务场景,充当了价值传递桥梁。

模拟人脑决策方式(PDCA),精心设计Agent(关键能力:感知、规划和行动),与环境持续交互,进而完成任务。

这个想法很早就有了,之前是强化学习(RL)驱动Agent,而现在成了LLM 驱动的Agent。 
智能体Agent的复兴依赖LLM Agent的特性: 具备一定世界知识 初步推理、规划能力 工具适用能力 上下文学习等
什么是Agent?

分别概述核心模块:Memory、Plan和Tool
① Memory 记忆
LLM 本身没有记忆,每次请求都是无状态。 怎么办?模拟人脑记忆机制。
人类拥有DNA记忆、短期记忆、海马体记忆、皮层记忆、长期记忆, 
分别模拟三种记忆方式:感知记忆、短期记忆和长期记忆

② Plan 规划:

两种常见方法:ReAct、Reflecting(改进)

更多: •【2024-2-5】中科大Understanding the planning of LLM agents: A survey
③ Tool 工具
工具适用能力相当于给LLM装上“手脚”,具备行动能力。

典型实现方式是2023年上半年推出的函数调用(Function Call)
④ 多智能体
单智能体(Single-Agent)能力有限,难以处理复杂问题,此时需要借助多智能体(Multi-Agent)。

多智能体的自主性、容错性、灵活性更好,重点在于协作。 难点是如何组织Agent结构。
篇幅所限,不过多展开,更多Agent知识见往期文章: 大模型智能体 LLM Agent Agent技术解读:Memory记忆模块 Agent技术解读:Planning(规划)模块
(3)Agent 设计
由于LLM本身的不足:无状态、不稳定,使用方式从直接调用升级到RAG、工作流(workflow),再到Agent,自动化程度逐步提升。

Saleforce论文总结了Agent两个维度上的发展趋势: 
其中的关键组件是推理、评估和自我纠正。 
详见: 【2025-4-12】SalesforceA Survey of Frontiers in LLM Reasoning: Inference Scaling, Learning to Reason, and Agentic Systems
论文有些晦涩,好在LLM顶级公司Anthropic的专家做了更详细、通俗易懂的报告
图解如下: 整体趋势:传统工作流(重规则)→AI工作流(局部自动化)→Agentic AI(主体自动化) 工作流(workflow)的组织方式有多重:链式(串行)、路由分流、分总(并行)、总分总(协作)、自我进化(对抗) 多智能体结构:主从(协作)、层次(主从从)、分布式(对等协作)

组件选择依赖于业务场景,没有绝对的好坏。
进一步总结Agent应用模式演变过程:

各个模式的优缺点分析: 
(4)Agent 应用
为了提升Agent设计效率,市面上有一堆Workflow、Agent编排系统:

箭头表示依赖关系,绿色表示开源,红色是闭源。
GUI 平台重在低代码开发Agent,这类平台跟随LLM技术同步升级: 早期原生Prompt,通过限制格式来支持工具调用 接着,诞生Function Call,工具调用效率提升 工作流旨在提升主体流程的可控性,GUI降低门槛、提升开发效率 单智能体进一步把控制权从人交给LLM,多智能体充分发挥群体智能。

最后,呈现出多功能、多样式的交互形式: 
Coze还新增“应用”模式,用户直接拖拽组装交互页面,类似小程序。 最近,还推出“Manus”复现版:Coze Space 扣子空间,提前实现自动化智能体。
详见:【产品】字节版“Manus”:Coze Space 扣子空间怎么样?
Agent设计经验:从易到难,逐步迭代 
近期,OpenAI和Anthropic分别推出自己的Agent应用指南。 
大体思路差不多,都建议根据业务场景渐进迭代,Agent并非首选,系统设计要精简。 (Anthropic经验比OpenAI更实在,值得仔细学习)
更多: 【2025-4-17】A practical guide to building agents 【2025-4-5】Anthropic:How We Build Effective Agents: Barry Zhang,
根据个人经验,整理Agent应用路线图: 
说明:
注意:
因为,Agent本身也有局限性,Multi-Agent效果不一定好! 
(5)Agent 发展
接下来,LLM Agent会怎么发展?
初步预估,会快速补齐已知短板,如:推理规划能力、工具效率、端侧设备操控、个性化信息感知、多模态交互等。
简而言之,基座LLM更强、工具调用更好、更加自动化。

其中,MCP和A2A解决了工具、Agent交互瓶颈问题。
MCP推出才4个月,已迅速成为行业标准。 
刚推出不到两周的A2A,进一步加强Agent通信效率,破除数据孤岛。 
怎么让Agent更加自动化?
除了Manus、GenSpark等实现方案,学术界也在快速推进,比如:ADAS通过Meta Agent Search自主“合成”Agent,而 MaAS 把机器学习里的AutoML引入到Agent框架设计中。

GUI Agent 继续提升Agent实用性,开始遍布各类终端设备:浏览器、操作系统、手机等。 
LLM还在不断进化,一步步逼近AGI。 |