|
研究背景和目的 在单一大语言模型长期主导人工智能领域的背景下,多智能体系统在对话任务解决中逐渐崭露头角。 虽然先前的研究已经展示了多智能体系统在推理任务和创造性工作中的潜力,但对于其在对话范式方面的局限性以及单个智能体的影响,尚缺乏深入分析。 本研究旨在填补这一空白,系统地评估多智能体系统在各种讨论范式下的表现,评估它们在生成性任务和问答任务中的优缺点。
研究方法
主要发现
研究贡献 理论贡献:提出了一个对2022年至2024年20项多智能体研究的分类法,为该领域的研究提供了系统性的梳理和总结。 实践贡献:引入了一个在对话任务解决中部署多智能体大语言模型的框架,为后续研究和实际应用提供了可参考的架构。 启示意义:揭示了多智能体交互和不同对话范式所带来的潜力与挑战,为未来研究如何提高多智能体大语言模型的效率、性能和安全性提供了有价值的见解。
1 Introduction
研究发现 任务表现差异:多智能体系统在推理能力和道德一致性方面有提升,但在基础生成任务(如翻译)上逊于单一大语言模型搭配思维链提示法。 讨论收敛与问题适应:多数智能体讨论时能快速达成共识,且会针对更难示例延长讨论,以适应问题复杂度。 讨论长度的影响:除策略性问答任务外,过长讨论对其他任务性能有负面影响,易引发 “问题漂移” 现象,即讨论偏离任务要求,因此简短讨论在多数任务中更有效。 信息与角色设定的作用:信息限制会使讨论收敛变慢;专家角色设定对复杂任务(如伦理问答、策略问答)解决至关重要;在生成性任务中,处于核心地位且信息全面的智能体生成内容更多,长回应智能体可能垄断讨论,影响决策公平性。长时间讨论还可能导致 “一致性崩塌”,引发安全担忧。
研究贡献 框架贡献:提出模块化框架,可灵活控制智能体、讨论形式和决策过程,为深入研究多智能体大语言模型提供有力工具。 性能见解:明确指出多智能体系统在不同场景下相较于单一大语言模型的优劣,为模型应用提供参考。 过程影响分析:深入研究多智能体讨论过程,阐释讨论形式对其的影响,增进对多智能体交互机制的理解。 个体影响量化:综合考虑角色设定和回应长度,量化单个智能体对对话的影响,为优化多智能体系统提供依据。
2 Related Work研究背景与早期探索:自最早的聊天机器人出现,人类就期望文本生成模型能像人类一样交流。最初,ELIZA和PARRY这两个程序模拟了医患对话,开启了此类探索。随着大语言模型能力提升,多智能体系统研究日益增多。
多智能体系统相关研究 单一大语言模型的类智能体模拟:一些研究通过特定提示方法,让单一大语言模型模拟不同领域专家角色进行讨论,如Wang等人的研究。这种方式在同一输出中运用讨论概念,仅需单一大语言模型计算,且能提升模型在创意写作等任务中的表现。 自我修正机制:像“自一致性”这类自我修正机制认为,复杂问题通常有多种解决途径。对查询多次处理,因模型参数变化会产生不同输出,汇总选择最一致的答案可得到更准确回应。Schick等人研究表明,重复处理和迭代改进对创意写作有益。 多智能体协作:“思维交换”结合智能体提示和重复改进思路,提出多个智能体(大语言模型的不同提示实例)协作解决任务的场景。研究显示,多智能体方法在推理方面优于单个模型搭配思维链或自一致性的方法。此外,不同智能体(如后端模型不同)可增加回应多样性,使讨论更丰富。
研究空白与目标:尽管多智能体系统研究众多,但关于其局限性和内在特性的研究较少。Wang等人质疑多智能体系统热潮,指出单智能体大语言模型通过有效提示可达到类似性能;Yin等人虽关注系统最佳表现场景,但仅对单模型和多智能体系统计算成本有一定见解。本文作者旨在研究多智能体讨论在对话任务解决中的内在特性和局限性,填补这一研究空白。
3 Taxonomy多智能体大语言模型研究领域现状:该领域虽活跃但尚处初期。Rossi等人在2018年对多智能体算法进行系统回顾,将多智能体系统任务分为三类:空间组织行为任务,智能体主要构建空间布局,与环境交互少;集体探索环境任务,智能体间交互有限;合作决策任务,智能体与环境及彼此都有交互。然而,新的研究成果超出了这三类范畴。 对话式问题解决分类的提出:Guo等人将问题解决视为以大语言模型为智能体的研究分支。基于此,作者建议新增“对话式问题解决”作为第四类任务。在这类任务中,智能体主要依靠相互间的交互来解决问题,与环境交互较少。作者的研究便专注于通过大语言模型智能体来开展对话式问题解决。 文献综述的必要性与实施:尽管对话式问题解决领域研究热度上升,但缺乏针对多智能体系统的最佳实践总结。因此,全面的文献综述对于开展多智能体大语言模型的深入研究至关重要。作者梳理了2022年以来20篇相关文献,明确了多智能体大语言模型的三个核心构成要素:智能体、讨论和决策。在研究过程中,作者着重关注符合这三个要素的研究成果,并对每个要素所涉及的常用技术和前沿研究进行了详细阐述,为后续研究奠定基础。
3.1 Agents智能体与参与者participant:智能体是经过特定提示的大语言模型实例,它们围绕特定任务展开讨论。而参与到这种讨论中的智能体,被作者称作参与者。这表明在多智能体大语言模型的讨论场景里,每个智能体扮演着参与者的角色,共同协作完成任务探讨。
参与者的角色塑造:参与者会按照特定的风格或格式进行交流互动,这种设定往往会塑造出不同的角色形象。比如设定为领域专家,这样就能更高效地调用训练数据里的专业知识,有助于解决专业性较强的问题;或者设定为具有某种性格特征的角色,为讨论增添活力与变化,使讨论过程更加丰富多样。
协调者moderator的角色及功能:部分研究在讨论中引入了一个更为核心的角色——协调者。它具有多种不同的能力,比如能够提出解决任务的方案,为讨论指引方向;可以控制发言顺序,确保讨论有序进行,避免混乱;还能监督智能体,保证它们在讨论时始终符合预先设定的角色形象,不偏离角色设定。协调者在讨论中起到了关键的中心化作用,对讨论的顺利推进和有效进行有着重要影响。
协调者概述:在一些多智能体讨论的研究里,会设置一个核心智能体作为协调者。虽然不同研究赋予它的目的各异,但通常它会通过特定设计保持中立,避免给讨论带来主观偏向。 参与者定义:参与者是多智能体讨论中的智能体,他们通过给出反馈、优化现有解决方案,为讨论出力。每个参与者都带有独特的偏好与信念,并以此为基础参与讨论过程。 大语言模型(LLM):LLM是每个参与者的核心。它负责生成思考流程以及对讨论的贡献内容,比如向其他智能体提供建设性反馈、完善当前方案草稿,还能依据提示想出新点子。研究发现,像GPT - 4这样推理能力强的模型,在需要紧密协作的任务里,能更好地贡献于讨论,助力获得更高分数。 角色设定(Persona):参与讨论的智能体可被赋予特定属性,如一种性格、专家角色等,这些属性就是智能体的Persona。Persona能为讨论带来独特观点和鲜明反馈,丰富讨论内容。在解谜、创意故事写作和数学推理等对推理与知识要求高的任务中,Persona有助于提升表现。而且,恰当选择Persona还能减少结果偏差。 记忆(Memory):为模拟更贴近人类的交互,Park等人引入Memory模块,用来存储各智能体的讨论记录。但依据讨论形式或待解决任务的不同,各智能体获取的讨论记录有差异,并非都能知晓全部信息。目前,在多智能体解决问题的情境下,智能体间信息差异产生的影响尚未深入研究,这方面动态变化有待进一步探索。 工具(Tools):因问题复杂或具有模块化特点,部分问题对LLM智能体而言颇具挑战甚至无法解决。为此,Zhuang等人给智能体配备Tools。理想状态下,参与者能依具体情形从工具集合中挑选合适工具。不过,当前LLM智能体在准确评估情形上存在困难,而ToolQA数据集可用于微调LLM智能体,使其学会在合适场景选用恰当工具。
3.2 Discussion互动准则:在多智能体系统里,智能体之间的互动并非随意进行,而是要遵循特定的准则。这些准则就像是一套规则,明确了在讨论过程中,依次该由哪个智能体发表见解、为讨论贡献内容,同时也界定了每个智能体能够获取和使用哪些信息。这确保了智能体之间的交流有序且有针对性。 独特对话策略与讨论范式:作者在评估众多相关研究后发现,几乎每项研究都根据自身特定的应用场景,制定了独一无二的对话策略。这些策略从整体上可以被概括为讨论范式,它决定了智能体互动的模式和流程。不同的应用场景可能需要不同的讨论范式,例如在解决复杂推理问题和简单信息交流场景中,智能体互动遵循的讨论范式会有差异。 提示的重要性:在智能体的互动过程中,提示扮演着关键角色。提示可以引导智能体按照特定的方向思考和回应,影响它们对信息的理解和处理方式,进而影响智能体之间的互动效果。它与讨论范式相互配合,共同塑造了智能体之间的交流方式和最终的讨论结果。
讨论结构与范式:为了清楚地了解智能体是如何进行交流的,首先要明确讨论的结构。这个过程涉及到对系统架构的修改和对讨论的顺序处理,作者在这里引用了尹等人[71]的概念,将这种总体概念称为范式。并且存在四种典型的范式,即记忆范式、接力范式、汇报范式和辩论范式,它们在轮流顺序和信息可见性方面具有各自的特点。
多智能体系统中的大语言模型使用:许多多智能体系统在进行讨论时,会把经过指令微调的大语言模型作为其中的智能体[54, 71]。当这些大语言模型进入推理模式后,会收到一系列的提示信息,包括一般的讨论安排、任务指令、之前的讨论记录以及像所分配角色这样的额外信息。不同的研究在使用这些大语言模型时,所采用的提示技术是不一样的,而且这些技术是根据系统的具体应用场景来选择的。
上下文长度对讨论的影响:在引导大语言模型参与讨论的过程中,每次提示都包含了初步讨论的信息。杜等人[9]的研究指出,较长的提示会对讨论结果产生影响。具体来说,较长的提示会使系统收敛到正确答案的速度变慢,这意味着可能需要更多的时间和计算资源。但从结果来看,最终达成的共识质量更高,这说明较长的提示在一定程度上可以提升最终结果的性能。这种现象体现了一种权衡关系,即需要在模型性能和效率之间做出选择,并且这种权衡关系在讨论的场景中也可能出现。
角色分配器的发展:在早期的多智能体系统中,当使用大语言模型时,要么不使用角色,要么只使用单一角色[74]。然而,不同的任务对于角色是有不同需求的,有些任务需要专门的角色来完成,并且使用专门角色可以为任务带来好处。但手动为不同任务定义专门角色是一项繁重的工作。不过,王等人[63]的研究表明,大语言模型具有自行找到合适角色的能力,所以可以通过有效地向大语言模型发出提示,让它为特定任务和实例生成合适的角色列表,这可能会提高多智能体系统在不同任务中的适应性和性能。
3.3 Decision Making决策机制的现状:在对许多研究进行评估后发现,其中有相当一部分研究并未提供决策机制,它们只是简单地在一个固定的时间点或者阶段终止智能体之间的讨论,例如[32, 47]所涉及的研究。
决策机制的分类:然而,也有一些研究采用了不同的决策机制,作者将这些机制归纳为三大类: 投票机制:这种机制对于某些特定类型的任务具有较好的适用性,比如分类任务或者标记问题,其中多项选择问答[41]就是一个典型例子。当智能体已经提出了可能的解决方案时,投票机制还可以用于处理生成性任务,即让智能体对可能的方案进行投票,根据票数来决定最终的结果,从而在一定程度上解决问题。 共识机制:主要用于生成性任务,例如创意故事写作[47]。在这个过程中,会使用迭代反馈循环,所有智能体都会对当前最新的草案进行改进。通过多次循环修改,直到所有智能体都认可最新的草案,并且不再需要进一步修改时,就认为达成了共识,达成共识也就意味着完成了决策过程,这一过程可以在[63]的研究中得到体现。 树搜索机制:其作用在于可以对讨论的多种可能路径进行遍历,通过这种遍历,可以找到最优的解决方案[75]。并且在将多智能体系统应用于多步骤任务时,树搜索机制能够帮助智能体系统更好地找到解决问题的最佳途径,为解决多步骤任务提供支持。
投票机制概述:在多智能体讨论中,对于生成性任务,智能体可以提出自己的草案作为解决方案。而对于其他一些本身就带有一组可选项(如多项选择题)的任务,可使用投票机制进行决策。在这种机制下,智能体可以对自己喜欢的解决方案进行投票,从而辅助决策。
共识机制(Consensus):在解决生成性任务时,共识机制强调通过多个智能体协作创建草案的方式。其核心思想是将多个智能体的想法结合起来,不断对当前的草案进行优化和完善,以形成一个高质量的解决方案。它和投票机制的区别在于,投票机制是从已有的一组草案中挑选出最佳的,而共识机制则是持续对草案进行改进,直至达到各方都能接受的状态,满足达成共识的条件,这种方式注重的是对草案的逐步优化和完善过程,而不是简单的方案选择。
树搜索(Tree Search):在多智能体的讨论场景中,智能体会为解决某个问题提出许多不同的解决方案。将这些解决方案看作一个整体时,可将其表示为一棵决策树。为了找出最优的解决方案,需要对这棵决策树进行遍历,并且存在多种遍历的方法。然而,陈等人[7]指出,在多智能体大语言模型中使用树搜索方法会存在效率问题。当搜索的探索率较高时,生成最终解决方案的速度会大幅下降,这一问题会严重影响其在实际应用中的效果。所以,如何对决策树进行搜索的方法对于系统的效率和性能有着决定性的影响,选择合适的搜索方法是关键。
4 Methodology研究背景和目的:首先,作者说明了开展研究的基础,即需要一个进行多智能体讨论的环境来回答研究问题和开展实验,为此提出了一个新的框架,该框架可以利用多智能体大语言模型进行实验操作。这个框架会涉及到多方面的细节,包括智能体的设置、讨论范式和决策制定,以及实验所使用的数据集和指标等,旨在为整个研究提供一个完整的实验平台。
任务性能方面: 该研究主要聚焦于多智能体大语言模型的性能特点,包括其优势、劣势和独特性质。为了探究多智能体对话中尚未解决的问题,即讨论形式对多智能体对话的影响,作者设计了一系列实验。 这些实验将在四种不同的通信范式下评估多智能体大语言模型,而这些范式在智能体的轮次顺序和信息获取权限上存在差异。通过将多智能体的这些范式与带有思维链(CoT)的单个大语言模型对比,可以发现多智能体系统的优势所在,同时找出哪些任务更适合用单个大语言模型解决。对不同范式差异的深入研究有助于更好地理解现有系统,并且为开发新的通信范式提供理论依据,帮助人们更深入地认识多智能体系统的工作机制。
讨论收敛性方面: 多智能体通信的内在特性还未被充分探索,当前许多研究都集中在使特定任务性能最大化上。作者为了更深入地理解多智能体讨论是如何展开的,决定对多智能体讨论的收敛性进行评估。收敛性主要通过观察智能体达成共识所需的轮次和交换消息的数量来体现。 此外,作者还想探究多智能体系统是否能够通过基于共识的决策机制来动态地适应问题的复杂性。为了实现这个目的,会观察单个大语言模型得分低的样本是否也是需要长时间讨论的样本,期望从中找出不同会话范式在收敛速度上的差异,并量化多智能体大语言模型的适应性。同时,一些任务可能会因为不同范式的结构特点(如轮次顺序和信息访问权限)而受益,这些实验可以为成功运用多智能体大语言模型提供关键信息,帮助人们了解在不同情况下如何优化多智能体系统的性能。
智能体的影响方面: 作者对单个智能体在讨论进程中的影响感兴趣,通过将具有专家角色的智能体替换为中立的草案提议者,并比较前后的性能,来测试其对决策过程的影响程度。在开放性任务(如创意写作)中,需要吸引读者的写作风格,因此作者通过测量去除一个角色前后最终输出的词汇多样性,来测试专家角色智能体是否有助于多智能体系统产生更吸引人的写作成果,进而为改进现有系统提供参考。 作者还关注单个智能体在范式中的位置如何影响讨论进程,通过另一个大语言模型自动生成角色,并根据它们在范式中的位置评估其生成长度。作者预期不同任务中具有专家角色的单个智能体的影响会有所不同,并且在范式中的位置可能会导致生成消息长度的不平衡,这种不平衡在期望进行平衡对话时是一个需要考虑的重要因素。最终目的是通过量化智能体整体和个体的影响,清晰地展现它们对讨论进程的影响方式,为更好地控制和优化多智能体讨论提供依据。
4.1 MALLM FrameworkMALLM 框架的总体介绍:其核心功能是为多智能体大语言模型的研究提供服务。 该框架具有诸多优点: 可定制和模块化接口:这意味着用户可以根据自己的需求,对框架进行灵活调整,方便研究多智能体大语言模型的各种特性和组件。 测试新想法的便利性:通过改变简单的参数或自定义子类,就能对新的想法进行测试,为创新研究提供了便利。 广泛的任务支持:其设计的提示模板能够为多种任务提供支持,只要任务带有相应的指令,就可以在该框架下开展。 性能优势:具有抗错性和高效性,这得益于并行化的 API 调用,同时还自带集成的评估管道,有助于提高研究的准确性和效率。 开源和可扩展性:最初已经包含了本研究所需的核心组件,而且作为开源项目,其他研究人员可以在 GitHub 存储库中对其进行贡献和修改,作者也希望持续改进和扩展该框架的功能,为更多研究人员服务。
MALLM 的主要组件及工作原理: 智能体部分: 讨论范式部分: 允许执行多种不同的讨论范式,这是该框架的一个重要特点。 不同的讨论范式在智能体之间的轮次顺序和信息可见性方面存在差异,这使得讨论具有多样性和灵活性。 在实际的讨论过程中,每个智能体都可以参与其中,它们会发送消息,并表明对当前解决方案的态度,这种参与方式有助于推动讨论的进行。
决策协议部分:
讨论的基本流程:
MALLM 与其他框架的比较:
实验设置:
自动角色分配: 在多智能体讨论中,为智能体分配角色是一个重要环节。然而,对于每个示例都手动指定角色不太现实,因此采用了自动分配角色的方式。 具体做法是利用另一个大语言模型(meta-llama/Meta-Llama-3-70B-Instruct)为每个示例生成一组三个专家角色。这样做的目的是为了激发丰富的讨论,因为不同的专家角色可以带来多样的信念、观点和熟练度,有助于讨论更加全面和深入。 自动角色分配的提示信息在附录 G.4 中,并且这种方法借鉴了之前的 Solo-Performance-Prompting [63] 和 Meta-Prompting [54]等研究成果,证明利用现有大语言模型自动生成和参考适合问题的角色是可行的。 在本研究中,选择使用三个智能体,是综合考虑了结构复杂度和研究深度的结果。相比使用两个智能体,三个智能体可以展现更丰富的结构复杂度,同时又不会因为过于复杂而难以从讨论中提取有价值的信息,为研究提供更有意义的见解。与其他研究不同的是,本研究中的角色是与任务和示例紧密相关的专家角色,而不是像某些研究[47]中使用的个性角色,这是为了更好地契合研究目标,确保智能体在讨论中能发挥其专业性和针对性。
讨论范式: 通过图 3 可以直观地看到这四种范式在结构上的差异,表 4 则提供了更详细的关于智能体轮次顺序和信息获取情况的信息。 选择这四种范式的主要原因是它们在轮次顺序和信息可见性方面各具特色,能为研究提供多样的视角。以记忆范式为例,所有智能体在每一轮都能参与讨论并获取全部信息,信息交流充分;而报告范式中则有两个智能体不交换信息,且只有一个中心智能体拥有全部信息,信息流动和交流方式相对独特。 这种选择与其他一些研究不同,像[20, 46, 47]这些研究通常只在单一固定的讨论格式上评估系统,而本研究更注重从不同的讨论结构中寻找差异和特征。 虽然孙等人[51]也提出了其他讨论范式,但由于这些范式涉及的智能体数量不同,与本研究设定的三个智能体的情况不符,所以不适合本研究。本研究重点关注的是不同讨论格式带来的特征变化,而不是智能体数量的影响,因此选择这四种范式更有利于达到研究目的,找出与讨论结构相关的特征。
共识决策: 决策机制对于多智能体讨论的结束和最终结果的产生至关重要。这里采用了一种类似共识的决策机制,称为迭代共识,它适用于本研究中的各种生成任务和问答任务。 在这个机制下,智能体在发送的每条消息中会被提示表明他们是否同意当前的方案,具体的提示信息在附录 G.2 中。通过正则表达式文本匹配,可以提取出智能体的同意信息。 达成共识的具体规则是:在前五轮讨论中,要求所有智能体都同意当前的草案;而在第五轮之后,只要多数智能体同意,讨论就可以继续,直至结束。但如果在极少数情况下,智能体无法达成共识,那么在七轮之后,将最新的草案作为最终的解决方案。 这种多数共识机制是一种灵活的决策协议,参考了尹等人[71]的方法。与其他研究相比,它的独特之处在于,有些研究[46]不使用决策机制,有些研究[51]则是使用一个评判智能体来做最终决策,而本研究的多数共识机制更具灵活性和适应性,更能反映智能体之间的动态交互和讨论的动态性,有助于根据不同的讨论情况得出更合适的结果。
4.2Datasets任务和数据集的选择细节:
数据集子集的选取机制: 资源限制与样本选取的必要性: 抽样计算方法: 作者采用了统计抽样的方法,首先设定了 95%的置信区间和 5%的误差范围(MoE),并保守地假设样本比例p = 0.[8]。 通过公式 其中Z_{0.975}=1.96,代入计算得到n=384.16,将其近似为 385。 然后使用公式 计算最终的子集大小n_{subset}$,该公式考虑了数据集的总体大小N_{dataset},根据不同数据集的大小对样本数量进行调整,确保在不同数据集下的抽样合理性。 最终每个数据集都得到了几百个样本作为测试集,完整的数据集细节可在表 1 中查看。 这种做法并非本研究首创,其他一些多智能体系统研究也有对数据集子集进行评估的先例[5, 71],但本研究提供了清晰的样本大小计算依据,增强了实验的科学性和可重复性。
实验的重复和结果评估策略:
4.3 Metrics评估指标的总体使用原则: 最终输出的处理和解决方案提取: 在使用思维链(CoT)提示和 MALLM 对话进行实验时,最终输出包含的信息比较复杂,除了所需的解决方案外,还有诸如推理文本、同意表示等其他内容。 之前尹等人[71]采用的通过正则表达式文本匹配提取答案的方法存在局限性,因为不同任务下大语言模型生成的答案可能不具有标准化的格式,不能很好地适应各种数据集。 因此,作者采用了一种新的方法,即向特定的大语言模型(meta-llama/Meta-Llama-3-70B-Instruct)发送提示信息,以此来提取原始的解决方案,相应的提示信息可以在附录 G.5 中找到。这种方式可以更好地从复杂的最终输出中准确提取出所需的解决方案,为后续的评估工作奠定基础。
具体任务的评估指标细节: 摘要任务(XSum): 使用 ROUGE-1、ROUGE-2 和 ROUGE-L [35]指标。这些指标是专门用于评估摘要质量的。具体来说: ROUGE-1 是基于一元组(unigram)的重叠度量,计算生成摘要和参考摘要中一元组的重叠情况,反映了词汇层面的匹配程度。 ROUGE-2 是基于二元组(bigram)的重叠度量,从两个词的组合角度评估摘要质量,考虑了词汇之间的顺序关系。 ROUGE-L是基于最长公共子序列(Longest Common Subsequence)的度量,考虑了生成摘要和参考摘要中最长的公共子序列,能够更好地捕捉句子结构和语义连贯性,从更宏观的角度评估摘要的相似性。
释义类型生成任务(ETPC): 翻译任务(WMT19 de-en): SQuAD 2.0 任务: 对于提取式问答任务,使用 F1 和精确匹配(Exact Match)分数来评估系统性能[44]。F1 分数综合考虑了召回率和精确率,精确匹配则直接判断系统生成的答案是否与正确答案完全一致,从不同的精度和召回维度评估系统从文本中提取正确信息的能力。 为了评估系统对不可回答问题的判断能力,作者修改了对智能体的任务指令,如果系统无法从源文档中找到答案,要求智能体输出[unknown]作为解决方案。然后通过正则表达式文本匹配来检查这种分类的准确率,从而评估系统在判断问题可回答性方面的性能,从另一个角度考察系统的能力,不仅仅是回答问题的能力,还包括对问题可解性的判断能力。
StrategyQA 和 Simple Ethical Questions 任务(多项选择任务): 生成性任务的词汇多样性评估(Distinct-n): 基于模型的指标(BERTScore):
5 Experiments实验一:
实验二:
实验三:
5.1 Task Performance实验目的与研究问题
实验设置与方法
实验结果 性能与任务的关系: 多智能体LLM在复杂推理任务(策略性和道德性问答)上比带思维链的单一LLM展现更强推理能力,但在基本任务(如翻译)中因问题漂移而表现不佳。 多智能体系统在复杂任务上的性能改进显著,如在战略和道德性问答中准确率比思维链基线高出多达4.0%,体现智能体对方案的迭代细化优势,与部分前人研究相符;但在基本任务中改进不明显,在WMT19翻译任务中BLEU得分甚至大幅下降,问题漂移导致智能体可能偏离问题和参考解,趋向讨论而非得出单一答案,而不同基本任务的表现受任务特性影响,如翻译答案空间受限,摘要则有复杂语境要求。
内部通信结构的影响: 识别不可答问题的能力:
主要结论 多智能体LLM推理能力强于带思维链的单一LLM。 多智能体系统可提升最终响应的道德一致性。 具有信息限制的集中式范式利于道德一致性讨论。 思维链在基本任务上因问题漂移优于多智能体LLM。 多智能体和单一LLM在检测不可答问题时表现相近。
5.2 Discussion Convergenc实验目的和研究问题
实验设置与方法
实验结果 讨论长度对任务性能的影响: 内部通信结构的重要性: 对困难样本的讨论情况:
主要结论 多数多智能体讨论在前三回合达成共识。 完全信息访问可加快共识。 短讨论可减轻问题漂移。 长讨论能提高推理能力但致道德一致性崩塌。 多智能体LLM会根据问题难度调整讨论时长。
5.3 Impact of Agents实验概述 旨在研究多智能体讨论中个体智能体的影响,考虑智能体的角色(personas)和在讨论范式中的位置。关注角色对讨论结果的量化影响、智能体响应长度与角色和结构的关系、多智能体与单LLM的词汇多样性差异,以及这些因素对任务性能的影响。
实验设计 实验将原有的三个专家角色中的一个替换为中性草案提议者智能体进行对比,不改变其他参数。通过关注最核心智能体,查看前十个最常生成的角色在不同范式中的表现,研究响应长度和决策垄断问题,还通过散点图研究总标记数、平均消息标记数与任务性能的关系。
实验结果 角色对任务的影响: 词汇多样性差异: 响应长度与角色和结构的关系: 范式中的核心智能体在生成性任务中贡献更长信息,不同任务和范式下的角色生成长度不同,生成性任务对结构变化更敏感,可能存在响应长度不平衡的问题。大部分任务中响应长度与对响应的同意率无明显相关性,但XSum数据集在这方面表现不同,较长响应在该任务中更易获同意,可能导致讨论垄断,此结果支持了相关垄断假设,未来需进一步研究垄断因素。 对XSum数据集和记忆范式的散点图分析显示,智能体响应的平均长度和总标记数对任务性能影响小,较长讨论往往导致性能下降,还需更细粒度地评估个体智能体响应长度。
主要结论 专家角色设定利于复杂任务,可提升词汇多样性,核心智能体在生成任务中贡献较长信息,在摘要任务中较长响应可能引发讨论垄断风险。
6 Epilogue主要研究内容及成果
未来工作方向
研究局限
论文:Multi-Agent Large Language Models for Conversational Task-Solving
|