链载Ai

标题: 【技术】Agent应用路线图 [打印本页]

作者: 链载Ai    时间: 5 小时前
标题: 【技术】Agent应用路线图




4月19日,我在Datafun上做了一期专题分享:Agent应用路线图

探讨Agent技术、企业落地路线图,覆盖了豆包、Coze业务中提炼出来的经验积累。


以下是文字版讲解,仅供参考。



分享大纲:



(1)LLM 应用方法


之前做过6年多对话系统项目,深刻体会到ChatBot研发的“理想美好”(CUI)和“现实残酷”


详见往期文章:



LLM横空出世后,对话系统技术栈受到巨大冲击,让人既喜又惊:


是的,我被LLM卷到了!


大模型技术攻占了对话系统60-80%的江山。


原pipeline架构里,NLU/NLG基本都被占领,DM也丢失了一半,剩下的ASR/TTS也在逐步被多模态LLM替掉。


为什么会这样?


LLM引起NLP范式的巨大变化:


实际上,第四范式的影响不止NLP,搜索、图像、视频、音频等都被波及。


接下来,大部分行业的大部分业务价值将被大模型拿走,已有应用需要按照LLM升级或重新设计。


详见:【拾象投研】大模型(LLM)最新趋势总结


大模型技术如何落地?


面对业务场景,不再是首选微调,而是提示工程(PE)、检索增强生成(RAG)、微调,以及复兴的Agent技术。



LLM应用范式区别:


路线图如下:


详见往期文章:大模型落地技术路线图



(2)Agent 介绍


LLM是“缸中之脑”,只能解决离散、孤立的任务,特点是无时空依赖。

但真实场景中更多的是连续、环境捆绑的人物,这类任务LLM无能为力。

怎么办?AI Agent 连接了大模型与业务场景,充当了价值传递桥梁。


模拟人脑决策方式(PDCA),精心设计Agent(关键能力:感知、规划和行动),与环境持续交互,进而完成任务。


这个想法很早就有了,之前是强化学习(RL)驱动Agent,而现在成了LLM 驱动的Agent。


智能体Agent的复兴依赖LLM Agent的特性:


什么是Agent?



分别概述核心模块:Memory、Plan和Tool


① Memory 记忆


LLM 本身没有记忆,每次请求都是无状态。

怎么办?模拟人脑记忆机制。


人类拥有DNA记忆、短期记忆、海马体记忆、皮层记忆、长期记忆,


分别模拟三种记忆方式:感知记忆、短期记忆和长期记忆



② Plan 规划:



两种常见方法:ReAct、Reflecting(改进)



更多:

•【2024-2-5】中科大Understanding the planning of LLM agents: A survey


③ Tool 工具


工具适用能力相当于给LLM装上“手脚”,具备行动能力。


典型实现方式是2023年上半年推出的函数调用(Function Call)


④ 多智能体


单智能体(Single-Agent)能力有限,难以处理复杂问题,此时需要借助多智能体(Multi-Agent)。


多智能体的自主性、容错性、灵活性更好,重点在于协作。

难点是如何组织Agent结构。


篇幅所限,不过多展开,更多Agent知识见往期文章:



(3)Agent 设计


由于LLM本身的不足:无状态、不稳定,使用方式从直接调用升级到RAG、工作流(workflow),再到Agent,自动化程度逐步提升。



Saleforce论文总结了Agent两个维度上的发展趋势:

其中的关键组件是推理、评估和自我纠正。


详见:

【2025-4-12】SalesforceA Survey of Frontiers in LLM Reasoning: Inference Scaling, Learning to Reason, and Agentic Systems


论文有些晦涩,好在LLM顶级公司Anthropic的专家做了更详细、通俗易懂的报告


图解如下:


组件选择依赖于业务场景,没有绝对的好坏。


进一步总结Agent应用模式演变过程:


各个模式的优缺点分析:



(4)Agent 应用


为了提升Agent设计效率,市面上有一堆Workflow、Agent编排系统:


箭头表示依赖关系,绿色表示开源,红色是闭源。


GUI 平台重在低代码开发Agent,这类平台跟随LLM技术同步升级:

最后,呈现出多功能、多样式的交互形式:

Coze还新增“应用”模式,用户直接拖拽组装交互页面,类似小程序。

最近,还推出“Manus”复现版:Coze Space 扣子空间,提前实现自动化智能体。


详见:【产品】字节版“Manus”:Coze Space 扣子空间怎么样?


Agent设计经验:从易到难,逐步迭代

近期,OpenAI和Anthropic分别推出自己的Agent应用指南。


大体思路差不多,都建议根据业务场景渐进迭代,Agent并非首选,系统设计要精简。

(Anthropic经验比OpenAI更实在,值得仔细学习)


更多:


根据个人经验,整理Agent应用路线图:

说明:


注意:


因为,Agent本身也有局限性,Multi-Agent效果不一定好!




(5)Agent 发展


接下来,LLM Agent会怎么发展?


初步预估,会快速补齐已知短板,如:推理规划能力、工具效率、端侧设备操控、个性化信息感知、多模态交互等。


简而言之,基座LLM更强、工具调用更好、更加自动化。



其中,MCP和A2A解决了工具、Agent交互瓶颈问题。


MCP推出才4个月,已迅速成为行业标准。


刚推出不到两周的A2A,进一步加强Agent通信效率,破除数据孤岛。



怎么让Agent更加自动化?


除了Manus、GenSpark等实现方案,学术界也在快速推进,比如:ADAS通过Meta Agent Search自主“合成”Agent,而 MaAS 把机器学习里的AutoML引入到Agent框架设计中。



GUI Agent 继续提升Agent实用性,开始遍布各类终端设备:浏览器、操作系统、手机等。

LLM还在不断进化,一步步逼近AGI。






欢迎光临 链载Ai (https://www.lianzai.com/) Powered by Discuz! X3.5