链载Ai

标题: Multi-Agent如何设计 [打印本页]

作者: 链载Ai    时间: 2 小时前
标题: Multi-Agent如何设计

研究背景和目的


研究方法


主要发现


研究贡献


1 Introduction






2 Related Work

研究背景与早期探索:自最早的聊天机器人出现,人类就期望文本生成模型能像人类一样交流。最初,ELIZA和PARRY这两个程序模拟了医患对话,开启了此类探索。随着大语言模型能力提升,多智能体系统研究日益增多。



研究空白与目标:尽管多智能体系统研究众多,但关于其局限性和内在特性的研究较少。Wang等人质疑多智能体系统热潮,指出单智能体大语言模型通过有效提示可达到类似性能;Yin等人虽关注系统最佳表现场景,但仅对单模型和多智能体系统计算成本有一定见解。本文作者旨在研究多智能体讨论在对话任务解决中的内在特性和局限性,填补这一研究空白。


3 Taxonomy


3.1 Agents

智能体与参与者participant:智能体是经过特定提示的大语言模型实例,它们围绕特定任务展开讨论。而参与到这种讨论中的智能体,被作者称作参与者。这表明在多智能体大语言模型的讨论场景里,每个智能体扮演着参与者的角色,共同协作完成任务探讨。


参与者的角色塑造:参与者会按照特定的风格或格式进行交流互动,这种设定往往会塑造出不同的角色形象。比如设定为领域专家,这样就能更高效地调用训练数据里的专业知识,有助于解决专业性较强的问题;或者设定为具有某种性格特征的角色,为讨论增添活力与变化,使讨论过程更加丰富多样。


协调者moderator的角色及功能:部分研究在讨论中引入了一个更为核心的角色——协调者。它具有多种不同的能力,比如能够提出解决任务的方案,为讨论指引方向;可以控制发言顺序,确保讨论有序进行,避免混乱;还能监督智能体,保证它们在讨论时始终符合预先设定的角色形象,不偏离角色设定。协调者在讨论中起到了关键的中心化作用,对讨论的顺利推进和有效进行有着重要影响。


协调者概述:在一些多智能体讨论的研究里,会设置一个核心智能体作为协调者。虽然不同研究赋予它的目的各异,但通常它会通过特定设计保持中立,避免给讨论带来主观偏向。


参与者定义:参与者是多智能体讨论中的智能体,他们通过给出反馈、优化现有解决方案,为讨论出力。每个参与者都带有独特的偏好与信念,并以此为基础参与讨论过程。


3.2 Discussion

互动准则:在多智能体系统里,智能体之间的互动并非随意进行,而是要遵循特定的准则。这些准则就像是一套规则,明确了在讨论过程中,依次该由哪个智能体发表见解、为讨论贡献内容,同时也界定了每个智能体能够获取和使用哪些信息。这确保了智能体之间的交流有序且有针对性。

独特对话策略与讨论范式:作者在评估众多相关研究后发现,几乎每项研究都根据自身特定的应用场景,制定了独一无二的对话策略。这些策略从整体上可以被概括为讨论范式,它决定了智能体互动的模式和流程。不同的应用场景可能需要不同的讨论范式,例如在解决复杂推理问题和简单信息交流场景中,智能体互动遵循的讨论范式会有差异。

提示的重要性:在智能体的互动过程中,提示扮演着关键角色。提示可以引导智能体按照特定的方向思考和回应,影响它们对信息的理解和处理方式,进而影响智能体之间的互动效果。它与讨论范式相互配合,共同塑造了智能体之间的交流方式和最终的讨论结果。


讨论结构与范式:为了清楚地了解智能体是如何进行交流的,首先要明确讨论的结构。这个过程涉及到对系统架构的修改和对讨论的顺序处理,作者在这里引用了尹等人[71]的概念,将这种总体概念称为范式。并且存在四种典型的范式,即记忆范式、接力范式、汇报范式和辩论范式,它们在轮流顺序和信息可见性方面具有各自的特点。






多智能体系统中的大语言模型使用:许多多智能体系统在进行讨论时,会把经过指令微调的大语言模型作为其中的智能体[54, 71]。当这些大语言模型进入推理模式后,会收到一系列的提示信息,包括一般的讨论安排、任务指令、之前的讨论记录以及像所分配角色这样的额外信息。不同的研究在使用这些大语言模型时,所采用的提示技术是不一样的,而且这些技术是根据系统的具体应用场景来选择的。


上下文长度对讨论的影响:在引导大语言模型参与讨论的过程中,每次提示都包含了初步讨论的信息。杜等人[9]的研究指出,较长的提示会对讨论结果产生影响。具体来说,较长的提示会使系统收敛到正确答案的速度变慢,这意味着可能需要更多的时间和计算资源。但从结果来看,最终达成的共识质量更高,这说明较长的提示在一定程度上可以提升最终结果的性能。这种现象体现了一种权衡关系,即需要在模型性能和效率之间做出选择,并且这种权衡关系在讨论的场景中也可能出现。


角色分配器的发展:在早期的多智能体系统中,当使用大语言模型时,要么不使用角色,要么只使用单一角色[74]。然而,不同的任务对于角色是有不同需求的,有些任务需要专门的角色来完成,并且使用专门角色可以为任务带来好处。但手动为不同任务定义专门角色是一项繁重的工作。不过,王等人[63]的研究表明,大语言模型具有自行找到合适角色的能力,所以可以通过有效地向大语言模型发出提示,让它为特定任务和实例生成合适的角色列表,这可能会提高多智能体系统在不同任务中的适应性和性能。


3.3 Decision Making

决策机制的现状:在对许多研究进行评估后发现,其中有相当一部分研究并未提供决策机制,它们只是简单地在一个固定的时间点或者阶段终止智能体之间的讨论,例如[32, 47]所涉及的研究。


决策机制的分类:然而,也有一些研究采用了不同的决策机制,作者将这些机制归纳为三大类:


投票机制概述:在多智能体讨论中,对于生成性任务,智能体可以提出自己的草案作为解决方案。而对于其他一些本身就带有一组可选项(如多项选择题)的任务,可使用投票机制进行决策。在这种机制下,智能体可以对自己喜欢的解决方案进行投票,从而辅助决策。





共识机制(Consensus):在解决生成性任务时,共识机制强调通过多个智能体协作创建草案的方式。其核心思想是将多个智能体的想法结合起来,不断对当前的草案进行优化和完善,以形成一个高质量的解决方案。它和投票机制的区别在于,投票机制是从已有的一组草案中挑选出最佳的,而共识机制则是持续对草案进行改进,直至达到各方都能接受的状态,满足达成共识的条件,这种方式注重的是对草案的逐步优化和完善过程,而不是简单的方案选择。




树搜索(Tree Search):在多智能体的讨论场景中,智能体会为解决某个问题提出许多不同的解决方案。将这些解决方案看作一个整体时,可将其表示为一棵决策树。为了找出最优的解决方案,需要对这棵决策树进行遍历,并且存在多种遍历的方法。然而,陈等人[7]指出,在多智能体大语言模型中使用树搜索方法会存在效率问题。当搜索的探索率较高时,生成最终解决方案的速度会大幅下降,这一问题会严重影响其在实际应用中的效果。所以,如何对决策树进行搜索的方法对于系统的效率和性能有着决定性的影响,选择合适的搜索方法是关键。




4 Methodology

研究背景和目的:首先,作者说明了开展研究的基础,即需要一个进行多智能体讨论的环境来回答研究问题和开展实验,为此提出了一个新的框架,该框架可以利用多智能体大语言模型进行实验操作。这个框架会涉及到多方面的细节,包括智能体的设置、讨论范式和决策制定,以及实验所使用的数据集和指标等,旨在为整个研究提供一个完整的实验平台。






4.1 MALLM Framework

MALLM 框架的总体介绍:其核心功能是为多智能体大语言模型的研究提供服务。


MALLM 的主要组件及工作原理


讨论的基本流程


MALLM 与其他框架的比较


实验设置


自动角色分配


讨论范式



共识决策


4.2Datasets

任务和数据集的选择细节


数据集子集的选取机制


实验的重复和结果评估策略


4.3 Metrics

评估指标的总体使用原则


最终输出的处理和解决方案提取



具体任务的评估指标细节


5 Experiments

实验一:


实验二:


实验三:


5.1 Task Performance

实验目的与研究问题


实验设置与方法


实验结果


主要结论


5.2 Discussion Convergenc

实验目的和研究问题


实验设置与方法


实验结果


主要结论


5.3 Impact of Agents

实验概述

旨在研究多智能体讨论中个体智能体的影响,考虑智能体的角色(personas)和在讨论范式中的位置。关注角色对讨论结果的量化影响、智能体响应长度与角色和结构的关系、多智能体与单LLM的词汇多样性差异,以及这些因素对任务性能的影响。


实验设计

实验将原有的三个专家角色中的一个替换为中性草案提议者智能体进行对比,不改变其他参数。通过关注最核心智能体,查看前十个最常生成的角色在不同范式中的表现,研究响应长度和决策垄断问题,还通过散点图研究总标记数、平均消息标记数与任务性能的关系。


实验结果


主要结论

专家角色设定利于复杂任务,可提升词汇多样性,核心智能体在生成任务中贡献较长信息,在摘要任务中较长响应可能引发讨论垄断风险。


6 Epilogue

主要研究内容及成果


未来工作方向


研究局限


论文:Multi-Agent Large Language Models for Conversational Task-Solving








欢迎光临 链载Ai (https://www.lianzai.com/) Powered by Discuz! X3.5