2.Agent 介绍
ingFang SC", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;letter-spacing: 1.5px;line-height: 2em;">3.Agent 设计ingFang SC", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;letter-spacing: 1.5px;line-height: 2em;">4.Agent 应用ingFang SC", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;letter-spacing: 1.5px;line-height: 2em;">5.Agent 发展ingFang SC", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;letter-spacing: 1.5px;line-height: 2em;">6.问答环节出品社区|DataFun
01
LLM应用方法
1.大模型重塑各行各业
原对话系统主流的流水线(pipeline)架构包含NLU、DM、NLG等模块,各司其职,依次串行。上一代对话系统体验不如预期,智能音箱、个人助理从人工智能变人工智障,发展陷入瓶颈。2022年底,ChatGPT为代表的大模型给对话系统带来巨大冲击,原有经验大多失效,需要按照大模型开发范式重塑。
NLU模块:包含意图识别和槽位抽取模块,独立且局部依赖,现在借助大模型+Function Call能力,简单场景编写提示词,复杂场景编排工作流就能完成。
DM模块:原DST和DP单独处理,大模型之后,简单逻辑通过提示词构建,复杂逻辑涉及函数调用和工作流,交互逻辑不确定时,交给自动体进行智能决策。
NLG模块:大模型角色模拟能力大幅增强,还能够接入外部资源。
对话系统主流的流水线模式被大模型重构。
大模型对各行业都带来巨大冲击,从行业价值来看,基础模型占比60%,AI基础设施占20%,AI应用占20%。
大模型早期只有大脑,缺少手脚,2024年多模态迅猛发展使其具备更强的感官能力,近期的工具能力的发展,又加强了执行能力。Agent能力将不断增强,应用场景也会越来越丰富。
2.自然语言处理范式演变
早期阶段:最早由语言学鼻祖乔姆斯基推出语法规则,试图让机器像人一样通过学习语法规则来理解语言,当时流行使用专家系统来解决语言问题。
统计与神经网络语言模型阶段:先后出现统计语言模型、神经网络语言模型,以及以深度神经网络(transformer)为代表的预训练语言模型,如BERT、GPT-1、GPT-2、GPT-3等,BERT系列也有诸多进化版本。过去五六年时间里,对话系统主要集中在这一阶段,采用第二阶段、第三范式的“pre-train(预训练)”加“fine-tune(微调)”模式。
大规模预训练语言模型阶段(第四范式):2022年底,大规模预训练语言模型出现,进入第四范式。区别在于无需fine-tune,直接将能力集成到基座大模型中,下游只需编写提示词并进行外部适配工作即可。
学习能力的变化:过去是使用形式语言让机器模拟人类学习语言,而大模型时代引入“元学习”概念,学习能力更强。
3.大模型应用范式分析
图中蓝色方框代表两阶段范式,预训练+微调,这两部分都得做。大模型时代,重点关注红框部分,即有一个基础模型,配合一些组件,比如微调组件、RAG的组件,再写一些提示工程,整体完成之后,就可以对接到一些AI应用了。
左侧红色框内的基础模型,可通过不同方法进行更新。全参微调对模型所有层级参数进行调整,而LORA等局部参数微调仅更新部分参数。更新比例越高,模型能力提升越显著,但计算资源消耗、训练时间等成本也会随之增加。因此,面对新业务时,需要结合具体场景,来做选择。
分析业务需求与推理环节优化:先对业务需求进行分析,从基本提示词入手,逐步升级到Few-shot以及CoT、GoT、XoT等各种演化版本,这些主要用于在推理环节提升效果。
语料引用与模型能力学习策略:若需引用全量语料,可采用RAG流程,多个进化版本。当期望模型自身学习并记住相应能力,输出具有固定风格时,可采用fine-tune方案,也可将RAG和fine-tune结合起来。
Agent策略及其特点:Agent比较特殊,与之前在基础模型上添加局部功能矫正、优化的方法不同。Agent理论上与基座模型相互独立又存在相关性,基座模型能力直接影响Agent应用效果和上限。即使使用能力较弱的大模型,良好的Agent结构设计也能带来新的提升。
以上是对大模型应用方式的简要介绍,接下来将重点介绍Agent的概念和应用。
02
Agent介绍
1.Agent定义
人们日常处理的任务主要有两类:
离散且孤立,例如:编程、下围棋以及简单的内容生成等,这些任务之间相互独立,不存在依赖关系。在围棋领域,AlphaGo比较知名,还有游戏中的AlphaZero等也是这类任务的典型代表。
连续且环境相关,比如:叫车出行、经营公司等,不断与环境进行交互。
大语言模型有个相关概念:“缸中之脑”或“瓮中之脑”。语言模型在所处环境中执行能力较弱,后来通过增加一些组件提升了感知能力,添加插件后执行能力也得到了增强。然而,它对现实世界的干预能力依旧不足。
一个重要的解决方案是AI Agent。SaaS相关的企业及其产品,都将逐渐被Agent所取代。
2.RL-Based Agent的困境与LLM Based-Agent的崛起
Agent核心功能包含感知、规划和行动,起源于强化学习,在强化学习中智能体会与环境交互。实现方案先后经历了:RL-Based Agent和LLM-Based Agent。
早期强化学习因AlphaGo击败李世石而声名远扬。但其发展受到如下限制:
应用领域局限,泛化能力不足。
受具体任务限制,且只有在游戏或任务完成后,才能获得真实反馈,奖励机制稀疏,导致任务执行出现问题。
以大模型为驱动的Agent则具有诸多优势:
具备世界知识:与上一代相比,天然具有一定世界知识,“世界模型”概念对Agent的规划和执行等操作很关键。
推理规划能力:以DeepSeek R1为例(R2未推出,预计推出后效果更好),具有推理规划能力。
工具使用与上下文学习:具备工具使用以及上下文学习能力,使得Agent概念再次受到广泛关注。
Agent具有自主性、反应性、社会性与主动性四大核心特性,除基座模型之外,还需要记忆能力、规划能力以及工具使用的能力。
3.Agent组件
Agent规划方面,实现思路是将大问题拆解成一个个小任务,逐一解决后再进行汇总。示例:CoT(思维链)和ToT(思维树)。
另一个方向是反思,即对之前的方案自行思考是否合理,若有问题及时修改。
规划可以细分为有无反馈和有反馈两种类型,其中包含许多不同的方向。
ReAct(反应式),即先思考、行动,完成后观察环境,然后进一步思考并行动,如此循环。不过,ReAct也存在局限性。
Reflecting(反思式),引入强化学习机制,行动时判断,比如强化学习中的“actor(行动者)”和“critic(评价者)”。此外,还有反思流程。整体而言,Reflecting效果比单纯强化学习更好。
大模型本身无记忆能力,每次请求都是无状态。如何给大模型增添记忆能力?仿生思路,参考人类记忆方式设计Agent记忆。
Agent记忆分为感知、短期记忆和长期记忆三类。感知侧重多模态方面;短期记忆包含工作记忆概念。
短期记忆实现方式:
常规方式:调用大模型时设置参数,默认带上前面几次会话历史,形成简单的短期记忆,但受窗口长度限制。
优化方式:当会话历史超过窗口长度时,可用前置摘要,用大模型处理历史信息,提取关键信息,突破部分窗口长度限制。
长期记忆的实现路径:
实现长期记忆常用RAG(检索增强生成)方法。
工具使用涉及到Agent与外部环境进行交互等操作,并且在交互过程中,采用 Json 格式进行数据传输或指令传达等。
在复杂任务场景中,单智能体面临明显局限:当需调用多种工具时,其工具识别与选择能力易受限,影响任务执行效率与效果;同时,单智能体决策模式单一,难以输出多样化结果。为突破这些瓶颈,多智能体系统成为更优选择,通过协同交互实现能力互补,显著提升任务处理灵活性。
多智能体架构组织方法:
按智能体类型组织:可按照通用智能体和专业智能体的方向进行组织。
编排模式:
主从模式:采用supervisor(监督者)加上worker(工作者)模式。
点对点模式:各个Agent之间是对等关系。
当前,多智能体的设计仍然是AI领域一个具有挑战性的前沿课题。
03
Agent设计
1.大模型Agent进化之路:从API调用困境到增强式LLM雏形
最初人们直接调用大模型API,之后关键环节的控制能力由弱变强。从直接调用API逐渐发展到增强式LLM阶段,形成了Agent的雏形。
早期调用大模型存在的主要问题为:
无状态:虽然能选取上文获得一定状态,但本质上缺乏长时间的状态记忆。
不稳定:大模型作为概率模型,每次调用结果可能不同。
通过调整参数缓解这些问题,如设置temperature、top k等参数,可在一定程度上改善不稳定的状况。
增强式LLM中,通过增加一些工具、提升记忆和检索能力,进一步提升大模型整体的表现效果。
2.Agent智能体演化路径
智能体在横轴方向的演化:从单次大模型调用,逐步演变为单智能体,接着进一步发展到多智能体。
智能体在垂直方向的演化:垂直方向上,智能体基于模型的推理性能及推理能力这两个维度进行演变。推理能力方面对应着如R1、R2、O1、O3等推理大模型系列。
单Agent和多Agent的关键组件:单Agent和多Agent都包含三个关键组件,即推理、评估和思考矫正的组件,这些组件在单Agent和多Agent中所扮演的环节在相关图中有展示。
3.智能体工作流的迭代与多智能体架构的发展
2024年底,Anthropic专家做了关于如何构建更高效自动体的分享,相关图示对其方法进行了整体概要展示。
工作流(workflow)演变经历了从规则驱动的传统工作流,到如今由各种平台编排的AI工作流,未来主流将是Agentic AI。
具体模式:
早期Augmented LLM,将工具等组织拼接进去。
工作流方面:
先是链式结构,后增加路由分流环节,该环节在客服场景中常用。
先分后合模式,让多个Agent完成同一件事,然后通过投票机制选取较好结果,以解决大模型输出不稳定问题,即选择高频出现的结果。
“总-分-总”模式,将大任务拆解成小任务,识别后再合并。
自我进化模式,执行后停下来,检查之前步骤是否错误,重新再来,这与之前的协作逻辑不同,是对抗逻辑。
智能体与工作流区别:关键流程环节是否具备自主决策思考能力,流程控制不再完全依赖人工定义。
多智能体架构也在发展,经历主从架构(协作式),到主从从架构(分多个层级解决问题),再到分布式结构(点对点方式,常见于社区交互)。
大模型应用模式迭代发展趋势,从原生大模型到增强式大模型,再到工作流迭代,之后又发展到单智能体、多智能体,甚至让智能体自己去设计自己的架构,即Auto-Agent。
典型应用。工作流方面,包含了链式、路由、并行分工、评估优化等。单智能体适合做工具调用,甚至任务规划。多智能体则有多种形式,如协同工作、更具层次的结构以及点对点的方式,还包括自动化设计。
4.增强式LLM与智能体的演进:经验依赖变迁、能力迭代及应用新思考
对专家经验的依赖程度:增强式LLM比较看重专家经验,需精心设计每个环节的提示工程;单智能体阶段对专家经验的依赖弱化;自动化智能体阶段能力大幅提升,进一步减少对专家经验的依赖。
状态方面:增强式LLM上下文记忆,并涉及RAG;智能体阶段从无状态转变为有状态,对状态的理解更为深入。
能力方面:能力逐步提升,智能体重点在于规划思考,多方协作时规划思考能得到多方验证,从而增强能力,获得群体智能的收益。
存在的问题及解决方式:幻觉、不稳定,工作流方式中由人控制主体逻辑可控制幻觉程度;单智能体若有反思矫正机制,能矫正一些错误规划。
应用场景方面:应用场景从简单问题场景逐渐变得复杂,从确定逻辑到简单模糊情况,能解决问题的场景越来越多。应用场景中如何找到较快的应用路径?
04
Agent应用
1.Agent编排工具现状及编排系统的迭代演进
当前主流Agent编排工具包括:
带UI工具:国内为大家熟知的有dify、Coze以及百度千帆;国外有LangChain基础上搭建UI的LangFlow(更多是流式结构,后升级成图式编排智能体的LangGraph),还有N8N、Flowise AI等。
框架工具:国内有Meta GPT、面壁智能的chatdev;微软AutoGen、Megnetic-one(去年底刚推出,是对AutoGen的简化,因为AutoGen上手成本较高),还有SWARM。
原生prompt格式输出不稳定,于是限定特定格式(如节省token输出)并单独调用工具。之后升级为工具调用Function Call,但Function Call也不稳定且逻辑简单。为解决对话逻辑编排问题,工作流诞生,本质是Plugin加强版,但与用户交互缺乏,执行过程依赖prompt且成本偏大。进而发展出单智能体,后来又演变成多智能体。
以Coze为例,左侧可以编排系统提示、设计人设、规划对话逻辑,还能配置常用工作流脚本,用户甚至可以上传自己的知识库、设置定时任务等,这些功能组合起来能够构建一个解决实际问题的机器人。
2.Coze平台机器人模拟评估与多智能体实践
Coze平台创建机器人后,如何自动化评估其对话质量成为关键问题。评估方式经历了三个阶段:
初期人工测试:由运营员工手动开启机器人,提出Bot相关与不相关问题,基于主观体验预判效果,该方式人力成本高且评判标准不统一,结果差异大。
流程自动化:将评估工作拆解为提问、评估等环节,纳入固定流程,通过标准化流程得出评估结果。
用户自主评估:考虑到真实用户提问的不确定性,设置特定人设(包含学术背景、年龄等信息),随机选择用户和人设,由Agent决定作答反馈,最终通过评分卡从情绪反馈、回答表现等维度进行评估。
3.多智能体在Bot自动标注中的应用与优势
机器人组件与文本处理问题:机器人有很多组件,其中提示语较长,超出上一代Bert窗口要求。Transformer处理文本时,上下文窗口有限制(如512),超出可截断。机器人组件中除了提示词,还会调用Plugin、workflow、自定义知识库。单个知识库是长文本文档,上一代Bert无法完整处理这些内容。
标注的迭代过程:最初采用多人分工协作模式,真实标注大量事例。项目经理将标注需求拆分成几个小需求,让标注人员各自标注,再人工审核,通过即可验收,任务可交叉,这是典型的多人分工协作汇总模式。
意图挖掘与标签标注:标注工作包括在已知意图里定义分类任务,并挖掘未知意图,从意图集合里“其他”类别中挖掘新标签。机器人组件会带技能标签,人工标注能力有限,人工标注机器人标签一般只能标两到四个,而每个机器人平均标签大致六到八个,所以人工标注不足。
Agent质检与处理:Agent质检即审核,遇到幻觉时,直接丢弃可惜,因为有些幻觉是标签的近似表达,应召回矫正。新生成的标签要判断合理性,员工抽检合理后可放回,这样label集合是动态更新。
最终方案效果:Multi-Agent 方案效果比人工标注好很多,最终替换了人工标注。
4.智能体开发:选型、模型、提示词与工具的优化策略
Agent选型:不要直接从提示工程跳到多智能体,应该循序渐进。先通过提示工程测试不同模型能力,再设计工作流。工作流场景需具备可控逻辑,跳转逻辑可由智能体控制;逻辑复杂或规则繁重时采用单智能体,多方协作则用多智能体,逐步提升难度。
基座模型:不要都用一种模型,应保持多样性;质检或评估等关键环节优先选用强模型;调用模型时,可对Temperature、Top k等参数调优,保证多样性,利于在同一任务中通过投票策略确保稳定性。
提示工程:
框架选择:主流框架丰富,如新加坡比赛夺冠的Trace,以及常规的few-shot,cot等。
语言使用:英文提示效果优于中文,建议优先用英文表述任务。
输出规范:输出需规范化;使用客气、专业的语言与大模型交互,符合其训练语料特性;如果提示工程太累,可采用prompt自动化方案。
工具调用:大模型不适合客观推理任务(如数学计算),即便部分模型(如DeepSeek R1和o3系列)具备一定能力,仍需升级;执行客观任务时避免直接使用大模型,注意输出控制;调用工具前,需充分测试其名称描述、参数及有效性,否则易导致整体准确率大幅下降(如曾低至50%以下)。
Agent设计:提示词过长会影响模型效果,建议通过摘要、RAG等方式拆分任务;避免单个Agent承担过多任务,合理分配给多个智能体;为了提升结果稳定性/准确性,可设计并行(异步或同步多次请求)或串行请求(分阶段处理任务,中间环节添加trycatch捕获异常,防止运行中断与错误累积)。
标注环节:用同一种模型(如GPT-4)进行标注和质检不可行,会漏掉问题案例;DeepMind论文显示,同种模型不能进行自我检查,强行矫正会显著降低整体准确度。
5.智能体设计前沿:OpenAI指南与Anthropic观点的深度解析
OpenAI最近发布了智能体设计指南,指出智能体适用于三种场景:复杂决策、难以维护的规则系统以及严重依赖经验的非结构化数据。若不属于这些场景,则不建议使用智能体。在编排方式上,存在单智能体和多智能体,多智能体又包含管理者和去中心化两种模式。实施建议采用渐进式方法,在选择策略方面,先用最强大的模型进行探索,再使用相对较小的模型。同时,要有人工干预机制,设计阈值和风险触发点,并且在关键环节设置一定的防御措施。
Anthropic 4月5号发布Agent设计指南(作者与上述相关内容为同一人),探讨了如何构建能力更强的智能体。核心观点:不要将智能体视为万能,不能所有问题都依赖智能体;要保持简单,这与机器学习早期的奥卡姆剃刀原理一致;定义任务时,自身要具备一定Agent思维。
Agent适合解决逻辑复杂且高价值的业务,但成本高、延迟高,如果无法接受,则不建议使用。
最初整理的Agent发展阶段体现了对智能体应用场景和特点的综合考量 。
6.智能体落地场景技术决策的思考
智能体落地时,如何进行技术决策:
技术可行性验证:拿到需求后,先用可用的最强模型逐个验证,检查单点能力是否存在瓶颈。若有瓶颈,修改需求或接入更强的模型。
成本和速度考量:以DeepSeek为例,其百万Token成本一到两块钱,每次调用成本约为0.0001人民币。若要求延迟控制在0.5秒以内,不适合用大模型,此时可选择BERT系列模型。很多人存在误区,认为只要是大模型就一定好,而忽略了上一代BERT系列或GPT系列等模型,BERT系列模型响应时间较快,在特定任务上表现良好,实际应用中,应根据场景选择。
模型选择依据:Encoder结构适合做理解任务,Decoder结构适合做生成任务。分类任务涉及理解,因此不能完全否定BERT系列模型。
错误容忍度:如果智能体误判给业务带来较大损失,建议引入人工干预或使用更可控的模型,此时不适合使用智能体。
任务复杂程度:根据调用频次衡量任务简单与否,两次以内调用是简单任务,超过两次是复杂任务。对于复杂任务,若调用过程中不需要工具、自定义知识库、联网等,直接使用大模型多次调用即可;若需要,则使用增强LLM。
任务逻辑与角色:对于复杂任务,若需要控制主体逻辑,使用工作流;若不需要,再判断是单角色还是多个角色协同。单角色任务使用单智能体即可,多角色协同任务则使用多智能体。
7.智能体的困境与挑战
实际上,智能体并非万能,原因:大模型并非无所不能。有人认为大模型结合智能体就能实现通用人工智能(AGI),但实际上,距离AGI还很遥远,市面上某些工具的宣传存在夸张成分。
智能体存在的问题:
记忆召回问题:常用的检索增强生成(RAG)本质上仍是检索思路,只能找到相关信息,而非因果关系。因此,智能体也会陷入只关注相关信息的问题,而要解决这个问题,需要寻找因果关系,如引入图神经网络方法或因果推理等方案。
错误累积问题:当系统越来越复杂,尤其是串行架构时,误差会逐级放大。所以必须保证前面环节的质量稳定性,比如Plugin质量问题会直接影响智能体执行质量,这也是OpenAI开始自建Plugin体系的原因。
探索效率问题:智能体(Agent)设计得越复杂,效率越低。如果让其自行决策,会出现各种冗余步骤,甚至把简单问题复杂化,同时Token花销也较大。因此,AutoGPT会引入人工干预环节。
任务终止和结果验证问题:任务终止以及结果验证方面,智能体表现不佳,尤其是对于评估标准模糊的开放问题,智能体可能一直运行,迟迟无法给出结果。一般可从数据及模型的训练,以及引入强化学习等方向进行改进。
伯克利论文分析了多智能体失败的原因,以MetaGPT、chatdev等为例进行验证,发现失败率较高,达到66% - 84%。具体原因:
流程规划和任务划分不当会导致智能体失败。
智能体间(Agent-Agent)协作,讨论无意义内容,导致效率低下,关键信息被忽略。
一些系统缺乏任务验证,即便有验证,也往往不起作用。例如Manus很火,官方展示了让智能体写一个小米SU7的PPT,虽然整个流程自动化程度很高,但仔细查看内容,会发现PPT质量一般,距离真正可用还有一定差距。
05
Agent发展
1.Agent发展趋势
未来,LLMAgent发展趋势为:
能力提升:推理能力增强,多模态能力提升(与人对环境的感知能力相关)。
工具与场景:可使用工具增多,应用场景从通用转向特定。
个性化与自动化:更多个性化信息输入,流程实现自主决策与自动化执行。
具体发展方向包括:
基础模型:推理和多模态能力进一步增强。
工具调用:以MCP为代表,推动工具调用更高效。
信息突破:涉及MCP、A2A等,突破数据边界。
2.MCP介绍
MCP,即模型上下文协议,Anthropic去年底推出,起初市场反响平平。但从今年一二月起,MCP迅速走红,凭借让大模型便捷调用外部工具的特性,一跃成为行业焦点,备受开发者与企业关注。
其核心理念为致力于统一行业标准。在标准确立前,各模型及场景需人工编写逻辑,效率低下;标准制定后,各方只需符合标准即可直接对接,无需深入关注具体应用,极大简化操作流程。
MCP具备多方面显著优势与价值,以电脑配件为例,只要对接MCP协议,配件可即插即用,无需了解实现细节;Server也能按标准提供服务,无需在意应用侧效果,直观展现其便捷性。MCP通过统一标准,显著提升工具调用能力,为开发者平台降低开发成本、提高效率,为用户侧带来更便捷、高效的使用体验,实现多方共赢。
3.A2A
Google推出A2A。如果用协议来类比,MCP类似Type-C协议,而A2A类似蓝牙协议,蓝牙协议负责电脑与电脑间的信息传送,只要符合协议就能实现传输。
有观点认为A2A是MCP的替代品,其实二者互补。MCP主要负责电脑与工具之间的交互,A2A则专注于Agent与Agent之间交互,并且A2A是建立在MCP技术基础之上,二者属于协作关系。
有了A2A后,智能体间无需共享内存资源,就能实现动态通信。这就好比WTO协议,在世界经济领域中打破各国关税壁垒,极大地提升了交互效率。
下面通过一个招聘案例,介绍智能体系统的运作流程及优势。需求是招聘方要按自身要求找到一个候选人。
智能体系统任务执行过程如下:
寻找候选人:智能体对需求进行任务拆分,先安排另一个智能体寻找相关候选人。
信息反馈与补充:若未找到候选人,会进行反馈,询问招聘方能否提供更详细信息,如所在国家、地域等。
候选人展示:获取更详细信息后,智能体展示若干候选人,以卡片形式呈现,提升了交互体验,而非简陋的纯文本形式。
后续流程:完成候选人展示后,进入安排面试步骤,面试结束后还能进行后续操作,整个过程自动化程度较高。
该示例展示了智能体系统通过任务拆分,借助A2A调度多个智能体,寻找候选人,依据反馈获取详细信息后展示候选人,并实现后续面试及相关操作的自动化。
4.Agent架构自动化的前沿进展
在自动化领域,强推理模型与自动化能力是两大核心要素。一方面,具备强大推理能力的基础模型是实现自动化的重要基石,它赋予系统对复杂问题的分析与决策能力;另一方面,如Manus、GenSpark等工具,依托背后的虚拟环境,能够自主完成执行、分析等操作,生动展现了自动化能力在实践中的价值,二者相辅相成,共同推动自动化技术的发展与应用。
自动化方向的前沿探索:
新加坡南洋理工的MaAS:探索Agent架构设计进一步自动化,将机器学习里AutoML方法引入到Agent框架设计中,构建包含提示词、工作流、工具调用等基本单元的Agent操作网络。针对不同任务(如数学计算和写代码等)自动编排不同结构。
加拿大大不列颠哥伦比亚大学的ADAS:运用元Agent搜索(Meta-Agent-Search),将各种元素进行组合,设定搜索空间和搜索算法。算法在搜索空间中匹配不同组件,组成新的Agent,然后在固定测试中进行验证。若效果良好,新Agent通过验证并进入候选。
2023 年 GUI Agent 的爆发式发展
GUI Agent方面,从上图中可以看到,2023年左右曲线增长迅猛,众多公司着手研究用Agent操控电脑和手机。如OpenAI的Operator和Claude的 Computer Use,对界面分析后能实现文本创作、打开微信、发送消息等操作,且操作的自动化程度不断提高。
以上就是本次关于AI Agent的分享内容。
06
问答环节
Q:如何让Agent理解相关性和因果性。
A:这是个极具挑战性的课题,大模型在理解相关性和因果性方面存在显著短板。不改动模型的情况下,可尝试在提示词中融入Fine-tune、CoT等方法进行改进。更好的方案为改动模型,运用因果或图神经网络的方法重新提炼,使模型学到符号主义的特例,从符号主义角度理解因果更科学。长远而言,大模型若要真正实现类人推理能力,或许难以绕开符号主义路线。
| 欢迎光临 链载Ai (https://www.lianzai.com/) | Powered by Discuz! X3.5 |