链载Ai

标题: Agent 应用路线图 [打印本页]

作者: 链载Ai    时间: 昨天 21:10
标题: Agent 应用路线图

ingFang SC", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;letter-spacing: 1.5px;color: rgb(0, 0, 0);font-size: 14px;text-align: justify;visibility: visible;line-height: 2em;">导读在人工智能技术蓬勃发展的当下,大模型应用已成为推动各行业数字化转型的关键力量。本文将系统梳理大模型应用的核心实施路径,深度聚焦 Agent 设计与落地实践,结合前沿技术理念与实际应用场景,为从业者提供具有实操价值的方法论与经验参考。

ingFang SC", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;letter-spacing: 1.5px;color: rgb(0, 0, 0);font-size: 14px;text-align: justify;visibility: visible;line-height: 2em;">右侧是作者技术博客里大模型技术图谱,每个方块代表一个专题,可以扫中间的二维码查看详情。

本次分享大纲:


ingFang SC", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;letter-spacing: 1.5px;line-height: 2em;visibility: visible;">1.LLM 应用方法

2.Agent 介绍

ingFang SC", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;letter-spacing: 1.5px;line-height: 2em;">3.Agent 设计

ingFang SC", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;letter-spacing: 1.5px;line-height: 2em;">4.Agent 应用

ingFang SC", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;letter-spacing: 1.5px;line-height: 2em;">5.Agent 发展

ingFang SC", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;letter-spacing: 1.5px;line-height: 2em;">6.问答环节

ingFang SC", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;font-size: 17px;font-style: normal;font-variant-ligatures: normal;font-variant-caps: normal;font-weight: 400;letter-spacing: normal;orphans: 2;text-indent: 0px;text-transform: none;widows: 2;word-spacing: 0px;-webkit-text-stroke-width: 0px;white-space: normal;text-decoration-thickness: initial;text-decoration-style: initial;text-decoration-color: initial;text-align: left;line-height: 1.75em;">分享嘉宾|王奇文 字节跳动(前) 算法负责人

ingFang SC", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;font-size: 17px;font-style: normal;font-variant-ligatures: normal;font-variant-caps: normal;font-weight: 400;letter-spacing: normal;orphans: 2;text-indent: 0px;text-transform: none;widows: 2;word-spacing: 0px;-webkit-text-stroke-width: 0px;white-space: normal;text-decoration-thickness: initial;text-decoration-style: initial;text-decoration-color: initial;text-align: left;line-height: 1.75em;">编辑整理|陈锡杜

ingFang SC", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;font-size: 17px;font-style: normal;font-variant-ligatures: normal;font-variant-caps: normal;font-weight: 400;letter-spacing: normal;orphans: 2;text-indent: 0px;text-transform: none;widows: 2;word-spacing: 0px;-webkit-text-stroke-width: 0px;white-space: normal;text-decoration-thickness: initial;text-decoration-style: initial;text-decoration-color: initial;text-align: left;line-height: 1.75em;">内容校对|李瑶

出品社区|DataFun


01


LLM应用方法


1.大模型重塑各行各业


原对话系统主流的流水线(pipeline)架构包含NLU、DM、NLG等模块,各司其职,依次串行。上一代对话系统体验不如预期,智能音箱、个人助理从人工智能变人工智障,发展陷入瓶颈。2022年底,ChatGPT为代表的大模型给对话系统带来巨大冲击,原有经验大多失效,需要按照大模型开发范式重塑。


大模型对各行业都带来巨大冲击从行业价值来看,基础模型占比60%,AI基础设施占20%,AI应用占20%。


大模型早期只有大脑,缺少手脚,2024年多模态迅猛发展使其具备更强的感官能力,近期的工具能力的发展,又加强了执行能力。Agent能力将不断增强,应用场景也会越来越丰富。


2.自然语言处理范式演变

3.大模型应用范式分析


图中蓝色方框代表两阶段范式,预训练+微调,这两部分都得做。大模型时代,重点关注红框部分,即有一个基础模型,配合一些组件,比如微调组件、RAG的组件,再写一些提示工程,整体完成之后,就可以对接到一些AI应用了。


左侧红色框内的基础模型,可通过不同方法进行更新。全参微调对模型所有层级参数进行调整,而LORA等局部参数微调仅更新部分参数。更新比例越高,模型能力提升越显著,但计算资源消耗、训练时间等成本也会随之增加。因此,面对新业务时,需要结合具体场景,来做选择。

以上是对大模型应用方式的简要介绍,接下来将重点介绍Agent的概念和应用。


02


Agent介绍


1.Agent定义


人们日常处理的任务主要有两类:


大语言模型有个相关概念:“缸中之脑”或“瓮中之脑”。语言模型在所处环境中执行能力较弱,后来通过增加一些组件提升了感知能力,添加插件后执行能力也得到了增强。然而,它对现实世界的干预能力依旧不足。


一个重要的解决方案是AI Agent。SaaS相关的企业及其产品,都将逐渐被Agent所取代。


2.RL-Based Agent的困境与LLM Based-Agent的崛起


Agent核心功能包含感知、规划和行动,起源于强化学习,在强化学习中智能体会与环境交互。实现方案先后经历了:RL-Based Agent和LLM-Based Agent。


早期强化学习因AlphaGo击败李世石而声名远扬。但其发展受到如下限制:


以大模型为驱动的Agent则具有诸多优势:


Agent具有自主性、反应性、社会性与主动性四大核心特性,除基座模型之外,还需要记忆能力、规划能力以及工具使用的能力。


3.Agent组件


Agent规划方面,实现思路是将大问题拆解成一个个小任务,逐一解决后再进行汇总。示例:CoT(思维链)和ToT(思维树)。


另一个方向是反思,即对之前的方案自行思考是否合理,若有问题及时修改。


规划可以细分为有无反馈和有反馈两种类型,其中包含许多不同的方向。

大模型本身无记忆能力,每次请求都是无状态。如何给大模型增添记忆能力?仿生思路,参考人类记忆方式设计Agent记忆。


Agent记忆分为感知、短期记忆和长期记忆三类。感知侧重多模态方面;短期记忆包含工作记忆概念。


短期记忆实现方式:


长期记忆的实现路径


工具使用涉及到Agent与外部环境进行交互等操作,并且在交互过程中,采用 Json 格式进行数据传输或指令传达等。


在复杂任务场景中,单智能体面临明显局限:当需调用多种工具时,其工具识别与选择能力易受限,影响任务执行效率与效果;同时,单智能体决策模式单一,难以输出多样化结果。为突破这些瓶颈,多智能体系统成为更优选择,通过协同交互实现能力互补,显著提升任务处理灵活性。


多智能体架构组织方法:


主从模式:采用supervisor(监督者)加上worker(工作者)模式。


点对点模式:各个Agent之间是对等关系。


当前,多智能体的设计仍然是AI领域一个具有挑战性的前沿课题。


03


Agent设计


1.大模型Agent进化之路:从API调用困境到增强式LLM雏形


最初人们直接调用大模型API,之后关键环节的控制能力由弱变强。从直接调用API逐渐发展到增强式LLM阶段,形成了Agent的雏形。


早期调用大模型存在的主要问题为:


通过调整参数缓解这些问题,如设置temperature、top k等参数,可在一定程度上改善不稳定的状况。


增强式LLM中,通过增加一些工具、提升记忆和检索能力,进一步提升大模型整体的表现效果。


2.Agent智能体演化路径

3.智能体工作流的迭代与多智能体架构的发展


2024年底,Anthropic专家做了关于如何构建更高效自动体的分享,相关图示对其方法进行了整体概要展示。


工作流(workflow)演变经历了从规则驱动的传统工作流,到如今由各种平台编排的AI工作流,未来主流将是Agentic AI。


具体模式:


智能体与工作流区别:关键流程环节是否具备自主决策思考能力,流程控制不再完全依赖人工定义。


多智能体架构也在发展,经历主从架构(协作式),到主从从架构(分多个层级解决问题),再到分布式结构(点对点方式,常见于社区交互)。


大模型应用模式迭代发展趋势,从原生大模型到增强式大模型,再到工作流迭代,之后又发展到单智能体、多智能体,甚至让智能体自己去设计自己的架构,即Auto-Agent。


典型应用。工作流方面,包含了链式、路由、并行分工、评估优化等。单智能体适合做工具调用,甚至任务规划。多智能体则有多种形式,如协同工作、更具层次的结构以及点对点的方式,还包括自动化设计。


4.增强式LLM与智能体的演进:经验依赖变迁、能力迭代及应用新思考

04


Agent应用


1.Agent编排工具现状及编排系统的迭代演进


当前主流Agent编排工具包括:


原生prompt格式输出不稳定,于是限定特定格式(如节省token输出)并单独调用工具。之后升级为工具调用Function Call,但Function Call也不稳定且逻辑简单。为解决对话逻辑编排问题,工作流诞生,本质是Plugin加强版,但与用户交互缺乏,执行过程依赖prompt且成本偏大。进而发展出单智能体,后来又演变成多智能体。


以Coze为例,左侧可以编排系统提示、设计人设、规划对话逻辑,还能配置常用工作流脚本,用户甚至可以上传自己的知识库、设置定时任务等,这些功能组合起来能够构建一个解决实际问题的机器人。


2.Coze平台机器人模拟评估与多智能体实践


Coze平台创建机器人后,如何自动化评估其对话质量成为关键问题。评估方式经历了三个阶段:


3.多智能体在Bot自动标注中的应用与优势

4.智能体开发:选型、模型、提示词与工具的优化策略


5.智能体设计前沿:OpenAI指南与Anthropic观点的深度解析


OpenAI最近发布了智能体设计指南,指出智能体适用于三种场景:复杂决策、难以维护的规则系统以及严重依赖经验的非结构化数据。若不属于这些场景,则不建议使用智能体。在编排方式上,存在单智能体和多智能体,多智能体又包含管理者和去中心化两种模式。实施建议采用渐进式方法,在选择策略方面,先用最强大的模型进行探索,再使用相对较小的模型。同时,要有人工干预机制,设计阈值和风险触发点,并且在关键环节设置一定的防御措施。


Anthropic 4月5号发布Agent设计指南(作者与上述相关内容为同一人),探讨了如何构建能力更强的智能体。核心观点:不要将智能体视为万能,不能所有问题都依赖智能体;要保持简单,这与机器学习早期的奥卡姆剃刀原理一致;定义任务时,自身要具备一定Agent思维。


Agent适合解决逻辑复杂且高价值的业务,但成本高、延迟高,如果无法接受,则不建议使用。


最初整理的Agent发展阶段体现了对智能体应用场景和特点的综合考量 。


6.智能体落地场景技术决策的思考


智能体落地时,如何进行技术决策:


7.智能体的困境与挑战


实际上,智能体并非万能,原因:大模型并非无所不能。有人认为大模型结合智能体就能实现通用人工智能(AGI),但实际上,距离AGI还很遥远,市面上某些工具的宣传存在夸张成分。


智能体存在的问题:


伯克利论文分析了多智能体失败的原因,以MetaGPT、chatdev等为例进行验证,发现失败率较高,达到66% - 84%。具体原因:


05


Agent发展


1.Agent发展趋势


未来,LLMAgent发展趋势为:


具体发展方向包括:


2.MCP介绍


MCP,即模型上下文协议,Anthropic去年底推出,起初市场反响平平。但从今年一二月起,MCP迅速走红,凭借让大模型便捷调用外部工具的特性,一跃成为行业焦点,备受开发者与企业关注。


其核心理念为致力于统一行业标准。在标准确立前,各模型及场景需人工编写逻辑,效率低下;标准制定后,各方只需符合标准即可直接对接,无需深入关注具体应用,极大简化操作流程。


MCP具备多方面显著优势与价值,以电脑配件为例,只要对接MCP协议,配件可即插即用,无需了解实现细节;Server也能按标准提供服务,无需在意应用侧效果,直观展现其便捷性。MCP通过统一标准,显著提升工具调用能力,为开发者平台降低开发成本、提高效率,为用户侧带来更便捷、高效的使用体验,实现多方共赢。


3.A2A


Google推出A2A。如果用协议来类比,MCP类似Type-C协议,而A2A类似蓝牙协议,蓝牙协议负责电脑与电脑间的信息传送,只要符合协议就能实现传输。


有观点认为A2A是MCP的替代品,其实二者互补。MCP主要负责电脑与工具之间的交互,A2A则专注于Agent与Agent之间交互,并且A2A是建立在MCP技术基础之上,二者属于协作关系。


有了A2A后,智能体间无需共享内存资源,就能实现动态通信。这就好比WTO协议,在世界经济领域中打破各国关税壁垒,极大地提升了交互效率。


下面通过一个招聘案例,介绍智能体系统的运作流程及优势。需求是招聘方要按自身要求找到一个候选人。


智能体系统任务执行过程如下:


该示例展示了智能体系统通过任务拆分,借助A2A调度多个智能体,寻找候选人,依据反馈获取详细信息后展示候选人,并实现后续面试及相关操作的自动化。


4.Agent架构自动化的前沿进展


在自动化领域,强推理模型与自动化能力是两大核心要素。一方面,具备强大推理能力的基础模型是实现自动化的重要基石,它赋予系统对复杂问题的分析与决策能力;另一方面,如Manus、GenSpark等工具,依托背后的虚拟环境,能够自主完成执行、分析等操作,生动展现了自动化能力在实践中的价值,二者相辅相成,共同推动自动化技术的发展与应用。


自动化方向的前沿探索:


2023 年 GUI Agent 的爆发式发展


GUI Agent方面,从上图中可以看到,2023年左右曲线增长迅猛,众多公司着手研究用Agent操控电脑和手机。如OpenAI的Operator和Claude的 Computer Use,对界面分析后能实现文本创作、打开微信、发送消息等操作,且操作的自动化程度不断提高。


以上就是本次关于AI Agent的分享内容。


06


问答环节


Q:如何让Agent理解相关性和因果性。


A这是个极具挑战性的课题,大模型在理解相关性和因果性方面存在显著短板。不改动模型的情况下,可尝试在提示词中融入Fine-tune、CoT等方法进行改进。更好的方案为改动模型,运用因果或图神经网络的方法重新提炼,使模型学到符号主义的特例,从符号主义角度理解因果更科学。长远而言,大模型若要真正实现类人推理能力,或许难以绕开符号主义路线。

以上就是本次分享的内容,谢谢大家。






欢迎光临 链载Ai (https://www.lianzai.com/) Powered by Discuz! X3.5