Multi-Agent如何设计

显示全部楼层

研究背景和目的

在单一大语言模型长期主导人工智能领域的背景下，多智能体系统在对话任务解决中逐渐崭露头角。
虽然先前的研究已经展示了多智能体系统在推理任务和创造性工作中的潜力，但对于其在对话范式方面的局限性以及单个智能体的影响，尚缺乏深入分析。
本研究旨在填补这一空白，系统地评估多智能体系统在各种讨论范式下的表现，评估它们在生成性任务和问答任务中的优缺点。

研究方法

实验评估：对多智能体系统在不同讨论范式下进行系统评估，包括生成性任务（如摘要、翻译、释义类生成）和问答任务（如抽取式、策略性、伦理问答）。
文献综述：对2022年至2024年的20项多智能体研究进行分类整理，深入剖析现有研究的成果与不足。

主要发现

优势方面：多智能体系统在复杂推理任务中表现出色，通过利用专家角色设定，其性能优于单一模型。
挑战方面：发现了多智能体系统在对话任务解决中存在的三个主要挑战：

问题漂移：较长的讨论虽然有助于推理，但智能体无法始终严格遵循任务要求，导致问题漂移，使得简短的对话在基础任务中更为有效。
一致性崩塌：长时间的讨论存在一致性崩塌的风险，给系统带来新的安全隐患。
垄断现象：讨论形式和角色设定会影响单个智能体的回应长度，出现讨论垄断现象，给诸如摘要生成等任务带来了决策公平性问题。

研究贡献

理论贡献：提出了一个对2022年至2024年20项多智能体研究的分类法，为该领域的研究提供了系统性的梳理和总结。
实践贡献：引入了一个在对话任务解决中部署多智能体大语言模型的框架，为后续研究和实际应用提供了可参考的架构。
启示意义：揭示了多智能体交互和不同对话范式所带来的潜力与挑战，为未来研究如何提高多智能体大语言模型的效率、性能和安全性提供了有价值的见解。

1 Introduction

研究背景

单一大语言模型的现状与局限：单一大语言模型在众多任务中表现出色且应用广泛，但存在诸如偏差、过度自信、可解释性差以及难以处理复杂任务推理等问题。
多智能体大语言模型的兴起：受人类通过协作解决复杂问题的启发，研究人员借鉴社会选择理论，利用多个大语言模型（即智能体）模拟人类互动，期望解决单一大语言模型的局限。多智能体系统在推理任务等方面已展现优势，但对其内在机制和影响因素的理解尚不足。

研究方法

提出MALLM框架：作者构建MALLM框架，用于模拟人类互动以解决对话式问题。
确定研究问题与任务：围绕多智能体讨论的有效性、影响任务性能的因素以及讨论特点等方面提出具体研究问题，并以生成性任务（摘要、翻译、释义生成）和问答任务（多选伦理问答、多选策略问答、抽取式问答）作为研究基准。

研究发现

任务表现差异：多智能体系统在推理能力和道德一致性方面有提升，但在基础生成任务（如翻译）上逊于单一大语言模型搭配思维链提示法。
讨论收敛与问题适应：多数智能体讨论时能快速达成共识，且会针对更难示例延长讨论，以适应问题复杂度。
讨论长度的影响：除策略性问答任务外，过长讨论对其他任务性能有负面影响，易引发 “问题漂移” 现象，即讨论偏离任务要求，因此简短讨论在多数任务中更有效。
信息与角色设定的作用：信息限制会使讨论收敛变慢；专家角色设定对复杂任务（如伦理问答、策略问答）解决至关重要；在生成性任务中，处于核心地位且信息全面的智能体生成内容更多，长回应智能体可能垄断讨论，影响决策公平性。长时间讨论还可能导致 “一致性崩塌”，引发安全担忧。

研究贡献

框架贡献：提出模块化框架，可灵活控制智能体、讨论形式和决策过程，为深入研究多智能体大语言模型提供有力工具。
性能见解：明确指出多智能体系统在不同场景下相较于单一大语言模型的优劣，为模型应用提供参考。
过程影响分析：深入研究多智能体讨论过程，阐释讨论形式对其的影响，增进对多智能体交互机制的理解。
个体影响量化：综合考虑角色设定和回应长度，量化单个智能体对对话的影响，为优化多智能体系统提供依据。

2 Related Work

研究背景与早期探索：自最早的聊天机器人出现，人类就期望文本生成模型能像人类一样交流。最初，ELIZA和PARRY这两个程序模拟了医患对话，开启了此类探索。随着大语言模型能力提升，多智能体系统研究日益增多。

多智能体系统相关研究

单一大语言模型的类智能体模拟：一些研究通过特定提示方法，让单一大语言模型模拟不同领域专家角色进行讨论，如Wang等人的研究。这种方式在同一输出中运用讨论概念，仅需单一大语言模型计算，且能提升模型在创意写作等任务中的表现。
自我修正机制：像“自一致性”这类自我修正机制认为，复杂问题通常有多种解决途径。对查询多次处理，因模型参数变化会产生不同输出，汇总选择最一致的答案可得到更准确回应。Schick等人研究表明，重复处理和迭代改进对创意写作有益。
多智能体协作：“思维交换”结合智能体提示和重复改进思路，提出多个智能体（大语言模型的不同提示实例）协作解决任务的场景。研究显示，多智能体方法在推理方面优于单个模型搭配思维链或自一致性的方法。此外，不同智能体（如后端模型不同）可增加回应多样性，使讨论更丰富。

研究空白与目标：尽管多智能体系统研究众多，但关于其局限性和内在特性的研究较少。Wang等人质疑多智能体系统热潮，指出单智能体大语言模型通过有效提示可达到类似性能；Yin等人虽关注系统最佳表现场景，但仅对单模型和多智能体系统计算成本有一定见解。本文作者旨在研究多智能体讨论在对话任务解决中的内在特性和局限性，填补这一研究空白。

3 Taxonomy

多智能体大语言模型研究领域现状：该领域虽活跃但尚处初期。Rossi等人在2018年对多智能体算法进行系统回顾，将多智能体系统任务分为三类：空间组织行为任务，智能体主要构建空间布局，与环境交互少；集体探索环境任务，智能体间交互有限；合作决策任务，智能体与环境及彼此都有交互。然而，新的研究成果超出了这三类范畴。
对话式问题解决分类的提出：Guo等人将问题解决视为以大语言模型为智能体的研究分支。基于此，作者建议新增“对话式问题解决”作为第四类任务。在这类任务中，智能体主要依靠相互间的交互来解决问题，与环境交互较少。作者的研究便专注于通过大语言模型智能体来开展对话式问题解决。
文献综述的必要性与实施：尽管对话式问题解决领域研究热度上升，但缺乏针对多智能体系统的最佳实践总结。因此，全面的文献综述对于开展多智能体大语言模型的深入研究至关重要。作者梳理了2022年以来20篇相关文献，明确了多智能体大语言模型的三个核心构成要素：智能体、讨论和决策。在研究过程中，作者着重关注符合这三个要素的研究成果，并对每个要素所涉及的常用技术和前沿研究进行了详细阐述，为后续研究奠定基础。

3.1 Agents

智能体与参与者participant：智能体是经过特定提示的大语言模型实例，它们围绕特定任务展开讨论。而参与到这种讨论中的智能体，被作者称作参与者。这表明在多智能体大语言模型的讨论场景里，每个智能体扮演着参与者的角色，共同协作完成任务探讨。

参与者的角色塑造：参与者会按照特定的风格或格式进行交流互动，这种设定往往会塑造出不同的角色形象。比如设定为领域专家，这样就能更高效地调用训练数据里的专业知识，有助于解决专业性较强的问题；或者设定为具有某种性格特征的角色，为讨论增添活力与变化，使讨论过程更加丰富多样。

协调者moderator的角色及功能：部分研究在讨论中引入了一个更为核心的角色——协调者。它具有多种不同的能力，比如能够提出解决任务的方案，为讨论指引方向；可以控制发言顺序，确保讨论有序进行，避免混乱；还能监督智能体，保证它们在讨论时始终符合预先设定的角色形象，不偏离角色设定。协调者在讨论中起到了关键的中心化作用，对讨论的顺利推进和有效进行有着重要影响。

协调者moderator

协调者概述：在一些多智能体讨论的研究里，会设置一个核心智能体作为协调者。虽然不同研究赋予它的目的各异，但通常它会通过特定设计保持中立，避免给讨论带来主观偏向。

草案提议者：在某些决策机制下，需要反复拟定方案。草案提议者这一角色便发挥作用，它在综合其他智能体反馈后，提出新的解决方案。此角色在对话中保持客观，不干扰决策，主要职责是将各方已提出的观点整合为一个尽量满足多数智能体的草案。

发言顺序管理者：智能体在讨论中的发言顺序并非固定不变。借鉴人类互动场景，如脱口秀或商务会议，发言顺序管理者这一协调者角色会掌控话语权，决定针对特定问题咨询哪个专业智能体，必要时还会引入其他专家智能体协助解决问题。这种方式使讨论更灵活，不局限于常规的轮流发言模式。

策略反馈者：讨论时，智能体可能出现难以达成共识或偏离预设准则的情况。策略反馈者这一角色能通过策略反馈机制，促使智能体展现特定行为。比如，有研究利用监督智能体保证讨论中的智能体不偏离设定角色，还有研究通过观察智能体在谈判博弈中给各智能体提供改进策略的书面反馈。

任务细化者：用户输入的任务对于多智能体系统可能过于复杂、难以理解，尤其在软件开发等场景。任务细化者会在智能体讨论前，增加一道工序，对用户给定任务进行进一步明确和细化，甚至给出如开发应用程序这类复杂任务的解决计划。

状态分类器：多智能体讨论中，判断何时结束交流是个难题。状态分类器可用于判定讨论处于进行、完成，还是无法达成一致的状态。虽然该分类器起初应用于简单谈判博弈，但此概念有望拓展到其他任务，在可能无法达成共识的讨论中节约计算资源。

参与者participant

参与者定义：参与者是多智能体讨论中的智能体，他们通过给出反馈、优化现有解决方案，为讨论出力。每个参与者都带有独特的偏好与信念，并以此为基础参与讨论过程。

大语言模型（LLM）：LLM是每个参与者的核心。它负责生成思考流程以及对讨论的贡献内容，比如向其他智能体提供建设性反馈、完善当前方案草稿，还能依据提示想出新点子。研究发现，像GPT - 4这样推理能力强的模型，在需要紧密协作的任务里，能更好地贡献于讨论，助力获得更高分数。
角色设定（Persona）：参与讨论的智能体可被赋予特定属性，如一种性格、专家角色等，这些属性就是智能体的Persona。Persona能为讨论带来独特观点和鲜明反馈，丰富讨论内容。在解谜、创意故事写作和数学推理等对推理与知识要求高的任务中，Persona有助于提升表现。而且，恰当选择Persona还能减少结果偏差。
记忆（Memory）：为模拟更贴近人类的交互，Park等人引入Memory模块，用来存储各智能体的讨论记录。但依据讨论形式或待解决任务的不同，各智能体获取的讨论记录有差异，并非都能知晓全部信息。目前，在多智能体解决问题的情境下，智能体间信息差异产生的影响尚未深入研究，这方面动态变化有待进一步探索。
工具（Tools）：因问题复杂或具有模块化特点，部分问题对LLM智能体而言颇具挑战甚至无法解决。为此，Zhuang等人给智能体配备Tools。理想状态下，参与者能依具体情形从工具集合中挑选合适工具。不过，当前LLM智能体在准确评估情形上存在困难，而ToolQA数据集可用于微调LLM智能体，使其学会在合适场景选用恰当工具。

3.2 Discussion

互动准则：在多智能体系统里，智能体之间的互动并非随意进行，而是要遵循特定的准则。这些准则就像是一套规则，明确了在讨论过程中，依次该由哪个智能体发表见解、为讨论贡献内容，同时也界定了每个智能体能够获取和使用哪些信息。这确保了智能体之间的交流有序且有针对性。

独特对话策略与讨论范式：作者在评估众多相关研究后发现，几乎每项研究都根据自身特定的应用场景，制定了独一无二的对话策略。这些策略从整体上可以被概括为讨论范式，它决定了智能体互动的模式和流程。不同的应用场景可能需要不同的讨论范式，例如在解决复杂推理问题和简单信息交流场景中，智能体互动遵循的讨论范式会有差异。

提示的重要性：在智能体的互动过程中，提示扮演着关键角色。提示可以引导智能体按照特定的方向思考和回应，影响它们对信息的理解和处理方式，进而影响智能体之间的互动效果。它与讨论范式相互配合，共同塑造了智能体之间的交流方式和最终的讨论结果。

范式Paradigm

讨论结构与范式：为了清楚地了解智能体是如何进行交流的，首先要明确讨论的结构。这个过程涉及到对系统架构的修改和对讨论的顺序处理，作者在这里引用了尹等人[71]的概念，将这种总体概念称为范式。并且存在四种典型的范式，即记忆范式、接力范式、汇报范式和辩论范式，它们在轮流顺序和信息可见性方面具有各自的特点。

轮流顺序：轮流顺序是每个范式的重要特征之一。在某些情况下，讨论可以以比较简单的方式进行，智能体按顺序依次贡献自己的信息，形成一种有序的信息流动。然而，还有一些更复杂的范式会打乱这种顺序，这样会影响信息在智能体之间流动的速度，进而影响整个讨论的节奏和信息传递的效率。

可见性：不同的范式可以控制智能体之间信息的可见性，也就是对智能体可访问信息的权限进行调整。例如，一种范式可能允许所有智能体看到彼此之间的全部信息，这意味着信息是完全透明的；而另一种范式可能会限制信息的可见性，只有正在直接交换信息的智能体才能看到彼此的消息，这可能会影响智能体的决策和讨论的进程，因为不同的信息可见性会导致智能体拥有不同的信息资源。

总结器：在进行多轮次的复杂讨论时，输入到智能体大语言模型的信息会变得非常长。但现代的大语言模型在处理长文本上下文信息时会面临困难，不能很好地利用这些信息。为了解决这个问题，杜等人[9]使用了一个总结模块，将冗长的讨论提炼为关键要点。实验结果显示，对讨论信息进行总结并作为输入，相比直接使用长文本上下文信息，可以提高系统的性能，有助于智能体更好地处理信息和完成任务。

智能体数量：参与讨论的智能体数量对于讨论的开展有着显著影响。杜等人[9]的研究表明，增加讨论中的智能体数量可以提高推理任务的性能，这可能是因为更多的智能体带来了更多的推理步骤，有助于从不同角度进行思考和分析问题。王等人[63]的研究也有类似发现，他们比较了生成固定数量角色和可变数量角色的情况，发现使用可变数量角色的方法效果更好，这意味着大语言模型自身有能力根据情况来决定一些讨论的参数，例如智能体的数量，这体现了大语言模型在一定程度上的自主性和灵活性，也为优化多智能体系统的性能提供了一种可能的思路。

Prompting

多智能体系统中的大语言模型使用：许多多智能体系统在进行讨论时，会把经过指令微调的大语言模型作为其中的智能体[54, 71]。当这些大语言模型进入推理模式后，会收到一系列的提示信息，包括一般的讨论安排、任务指令、之前的讨论记录以及像所分配角色这样的额外信息。不同的研究在使用这些大语言模型时，所采用的提示技术是不一样的，而且这些技术是根据系统的具体应用场景来选择的。

上下文长度对讨论的影响：在引导大语言模型参与讨论的过程中，每次提示都包含了初步讨论的信息。杜等人[9]的研究指出，较长的提示会对讨论结果产生影响。具体来说，较长的提示会使系统收敛到正确答案的速度变慢，这意味着可能需要更多的时间和计算资源。但从结果来看，最终达成的共识质量更高，这说明较长的提示在一定程度上可以提升最终结果的性能。这种现象体现了一种权衡关系，即需要在模型性能和效率之间做出选择，并且这种权衡关系在讨论的场景中也可能出现。

角色分配器的发展：在早期的多智能体系统中，当使用大语言模型时，要么不使用角色，要么只使用单一角色[74]。然而，不同的任务对于角色是有不同需求的，有些任务需要专门的角色来完成，并且使用专门角色可以为任务带来好处。但手动为不同任务定义专门角色是一项繁重的工作。不过，王等人[63]的研究表明，大语言模型具有自行找到合适角色的能力，所以可以通过有效地向大语言模型发出提示，让它为特定任务和实例生成合适的角色列表，这可能会提高多智能体系统在不同任务中的适应性和性能。

3.3 Decision Making

决策机制的现状：在对许多研究进行评估后发现，其中有相当一部分研究并未提供决策机制，它们只是简单地在一个固定的时间点或者阶段终止智能体之间的讨论，例如[32, 47]所涉及的研究。

决策机制的分类：然而，也有一些研究采用了不同的决策机制，作者将这些机制归纳为三大类：

投票机制：这种机制对于某些特定类型的任务具有较好的适用性，比如分类任务或者标记问题，其中多项选择问答[41]就是一个典型例子。当智能体已经提出了可能的解决方案时，投票机制还可以用于处理生成性任务，即让智能体对可能的方案进行投票，根据票数来决定最终的结果，从而在一定程度上解决问题。
共识机制：主要用于生成性任务，例如创意故事写作[47]。在这个过程中，会使用迭代反馈循环，所有智能体都会对当前最新的草案进行改进。通过多次循环修改，直到所有智能体都认可最新的草案，并且不再需要进一步修改时，就认为达成了共识，达成共识也就意味着完成了决策过程，这一过程可以在[63]的研究中得到体现。
树搜索机制：其作用在于可以对讨论的多种可能路径进行遍历，通过这种遍历，可以找到最优的解决方案[75]。并且在将多智能体系统应用于多步骤任务时，树搜索机制能够帮助智能体系统更好地找到解决问题的最佳途径，为解决多步骤任务提供支持。

Voting

投票机制概述：在多智能体讨论中，对于生成性任务，智能体可以提出自己的草案作为解决方案。而对于其他一些本身就带有一组可选项（如多项选择题）的任务，可使用投票机制进行决策。在这种机制下，智能体可以对自己喜欢的解决方案进行投票，从而辅助决策。

排序式投票（Ranked）：

这是一种具体的投票方式，每个智能体需要将可能的解决方案按从优到劣的顺序进行排列。这样做的好处是可以对不同的偏好方案进行比较和权衡，找到一个折中的方案，该方案能够在一定程度上满足多个智能体的需求。之前的研究表明，这种排序式投票方式在评估人类集体行为方面有不错的表现，说明它在模拟人类集体决策时具有一定的优势和准确性。

累积式投票（Cumulative）：

此投票方式给每个智能体固定数量的分数，智能体将这些分数分配给不同的解决方案。最终，得分最高的解决方案会成为最终决策。对于使用大语言模型的情况，如果期望智能体之间能有较高的一致性，累积式投票是更优的选择。因为这种方式可以通过分数分配清晰地反映出每个智能体对不同方案的认同或不认同程度，进而产生更具一致性的结果，使得最终决策更具说服力和稳定性。

批准式投票（Approval）：

杨等人[69]对批准式投票进行了详细说明。在这种方式下，每个智能体只能选择固定数量的解决方案表示批准。这样做的好处是在决策过程中，可使大语言模型在一定程度上避免过于坚持自己的观点，让决策过程在处理更开放的任务时更快地得出结果。而且，批准式投票还有一些变体，它们可以更加灵活，比如允许智能体少选甚至不选某些解决方案，这种更具动态性的批准机制在处理具有明确参考的任务时，可能会有更好的表现，更能适应不同的任务需求和场景。

共识机制Consensus

共识机制（Consensus）：在解决生成性任务时，共识机制强调通过多个智能体协作创建草案的方式。其核心思想是将多个智能体的想法结合起来，不断对当前的草案进行优化和完善，以形成一个高质量的解决方案。它和投票机制的区别在于，投票机制是从已有的一组草案中挑选出最佳的，而共识机制则是持续对草案进行改进，直至达到各方都能接受的状态，满足达成共识的条件，这种方式注重的是对草案的逐步优化和完善过程，而不是简单的方案选择。

一致性（Consistency）：当对一个或多个智能体就同一任务反复进行提示时，会得到一组可能的解决方案。自我一致性[61]是一种处理这些方案的方式，它会对这些方案进行一致性检查。具体来说，就是找出与其他所有方案最相似的那个方案，将其作为最终答案。尽管自我一致性最初是为单智能体大语言模型提出的，但后来发现它也可以在多智能体系统中发挥作用[59]，可以帮助从多个智能体提供的多个方案中筛选出最具一致性的最终方案，从而保证结果的稳定性和可靠性。

迭代共识（Iterative）：迭代共识采用一种渐进式的方法来解决问题。它不是像传统方式那样一次性生成多个解决方案，而是一个接一个地提出新的解决方案。在这个过程中，会通过持续的讨论来不断优化输出结果，直到达到一定数量的智能体都满意的程度。这种方法在多种场景下得到了应用，例如“单人性能提示”[63]的提示技术以及 PEER[46]这样的协作模型中都利用了迭代共识的思想。此外，“思维交换”[71]和陈等人[5]的研究在多智能体讨论中也使用了迭代共识，他们使用不同的模型，让智能体在讨论中相互说服，通过不断迭代更新方案，最终实现达成共识的目标，体现了一种动态的、逐步优化的解决问题思路。

Tree Search

树搜索（Tree Search）：在多智能体的讨论场景中，智能体会为解决某个问题提出许多不同的解决方案。将这些解决方案看作一个整体时，可将其表示为一棵决策树。为了找出最优的解决方案，需要对这棵决策树进行遍历，并且存在多种遍历的方法。然而，陈等人[7]指出，在多智能体大语言模型中使用树搜索方法会存在效率问题。当搜索的探索率较高时，生成最终解决方案的速度会大幅下降，这一问题会严重影响其在实际应用中的效果。所以，如何对决策树进行搜索的方法对于系统的效率和性能有着决定性的影响，选择合适的搜索方法是关键。

评估器（Critic）：李等人[31]提出了一种“循环评估器”的方法，在每一轮讨论中，智能体会生成一组可能的解决方案，然后由评估器从中挑选出最优的方案。这里的评估器可以是经过提示的大语言模型，也可以是人类。胡等人[22]使用的树规划器是为了解决多步骤任务，它会在执行任务前生成多个任务计划，当在遍历决策树时遇到错误，会回到之前的分叉节点继续遍历。这两种方法都与传统的启发式方法（如蒙特卡罗树搜索[48]）不同，因为它们的评估器选择最优方案的标准是基于人为的提示工程或人类偏好，这为决策提供了一种更具主观性和灵活性的方式。

启发式方法（Heuristic）：在多智能体对话的决策树探索中，还可以使用启发式方法。这种方法的优势在于不需要额外的模型来进行树的遍历，节省了资源。周等人[75]将蒙特卡罗树搜索[48]应用到多智能体的环境中，通过开发率和探索率来控制整个问题的解决过程，其具体操作是依次执行选择、扩展、评估、模拟、反向传播和反思这六个步骤，直至任务完成或达到一定的限制条件。此外，还有像束搜索[66]和最佳优先树搜索[28]等其他树搜索算法也被用于多智能体的交互中。尽管这些算法在性能和速度方面有所差异，但它们都属于对树的启发式探索，因为它们的核心概念都是在不依赖额外模型的情况下，利用启发式规则探索决策树，为寻找最优解提供了不同的思路和实现路径。

4 Methodology

研究背景和目的：首先，作者说明了开展研究的基础，即需要一个进行多智能体讨论的环境来回答研究问题和开展实验，为此提出了一个新的框架，该框架可以利用多智能体大语言模型进行实验操作。这个框架会涉及到多方面的细节，包括智能体的设置、讨论范式和决策制定，以及实验所使用的数据集和指标等，旨在为整个研究提供一个完整的实验平台。

任务性能方面：

该研究主要聚焦于多智能体大语言模型的性能特点，包括其优势、劣势和独特性质。为了探究多智能体对话中尚未解决的问题，即讨论形式对多智能体对话的影响，作者设计了一系列实验。
这些实验将在四种不同的通信范式下评估多智能体大语言模型，而这些范式在智能体的轮次顺序和信息获取权限上存在差异。通过将多智能体的这些范式与带有思维链（CoT）的单个大语言模型对比，可以发现多智能体系统的优势所在，同时找出哪些任务更适合用单个大语言模型解决。对不同范式差异的深入研究有助于更好地理解现有系统，并且为开发新的通信范式提供理论依据，帮助人们更深入地认识多智能体系统的工作机制。

讨论收敛性方面：

多智能体通信的内在特性还未被充分探索，当前许多研究都集中在使特定任务性能最大化上。作者为了更深入地理解多智能体讨论是如何展开的，决定对多智能体讨论的收敛性进行评估。收敛性主要通过观察智能体达成共识所需的轮次和交换消息的数量来体现。
此外，作者还想探究多智能体系统是否能够通过基于共识的决策机制来动态地适应问题的复杂性。为了实现这个目的，会观察单个大语言模型得分低的样本是否也是需要长时间讨论的样本，期望从中找出不同会话范式在收敛速度上的差异，并量化多智能体大语言模型的适应性。同时，一些任务可能会因为不同范式的结构特点（如轮次顺序和信息访问权限）而受益，这些实验可以为成功运用多智能体大语言模型提供关键信息，帮助人们了解在不同情况下如何优化多智能体系统的性能。

智能体的影响方面：

作者对单个智能体在讨论进程中的影响感兴趣，通过将具有专家角色的智能体替换为中立的草案提议者，并比较前后的性能，来测试其对决策过程的影响程度。在开放性任务（如创意写作）中，需要吸引读者的写作风格，因此作者通过测量去除一个角色前后最终输出的词汇多样性，来测试专家角色智能体是否有助于多智能体系统产生更吸引人的写作成果，进而为改进现有系统提供参考。
作者还关注单个智能体在范式中的位置如何影响讨论进程，通过另一个大语言模型自动生成角色，并根据它们在范式中的位置评估其生成长度。作者预期不同任务中具有专家角色的单个智能体的影响会有所不同，并且在范式中的位置可能会导致生成消息长度的不平衡，这种不平衡在期望进行平衡对话时是一个需要考虑的重要因素。最终目的是通过量化智能体整体和个体的影响，清晰地展现它们对讨论进程的影响方式，为更好地控制和优化多智能体讨论提供依据。

4.1 MALLM Framework

MALLM 框架的总体介绍：其核心功能是为多智能体大语言模型的研究提供服务。

该框架具有诸多优点：

可定制和模块化接口：这意味着用户可以根据自己的需求，对框架进行灵活调整，方便研究多智能体大语言模型的各种特性和组件。
测试新想法的便利性：通过改变简单的参数或自定义子类，就能对新的想法进行测试，为创新研究提供了便利。
广泛的任务支持：其设计的提示模板能够为多种任务提供支持，只要任务带有相应的指令，就可以在该框架下开展。
性能优势：具有抗错性和高效性，这得益于并行化的 API 调用，同时还自带集成的评估管道，有助于提高研究的准确性和效率。
开源和可扩展性：最初已经包含了本研究所需的核心组件，而且作为开源项目，其他研究人员可以在 GitHub 存储库中对其进行贡献和修改，作者也希望持续改进和扩展该框架的功能，为更多研究人员服务。

MALLM 的主要组件及工作原理：

智能体部分：

MALLM 能够创建智能体，这些智能体被赋予了角色，这些角色在讨论中发挥着重要作用。
这些角色可以通过另一个大语言模型自动生成，为解决问题的讨论提供了基础。

讨论范式部分：

允许执行多种不同的讨论范式，这是该框架的一个重要特点。
不同的讨论范式在智能体之间的轮次顺序和信息可见性方面存在差异，这使得讨论具有多样性和灵活性。
在实际的讨论过程中，每个智能体都可以参与其中，它们会发送消息，并表明对当前解决方案的态度，这种参与方式有助于推动讨论的进行。

决策协议部分：

包含一个决策协议，该协议会根据预先设定的规则（例如投票、共识等）来检查智能体之间是否达成了一致。
其重要性在于，通过这种检查，确保讨论不会无休止地进行下去，能够在合适的时机终止，并为用户提供最终的解决方案，保证了整个讨论过程的完整性和有效性。

讨论的基本流程：

详细说明了使用 MALLM 进行讨论的三个基本步骤：

步骤（1）：根据任务和示例自动确定合适的专家角色，以此来初始化智能体。这个步骤为后续的讨论做好准备工作，通过自动分配专家角色，为智能体赋予不同的能力和视角，有助于开启一个有针对性的讨论。
步骤（2）：智能体开始讨论如何解决示例问题。在这个过程中，使用思维链（CoT）对智能体进行提示，让它们对当前的解决方案给出反馈、提出改进建议，并且表明是否同意该方案，这体现了智能体之间的协作和交流，通过思维链引导智能体更好地参与讨论和贡献自己的想法。
步骤（3）：每次收到智能体的消息后，检查它们之间是否达成了共识，如果达成共识，意味着找到了最终的解决方案，此时就可以终止讨论。这是一个不断迭代的过程，通过持续的交流和检查，推动讨论走向最终的决策。

MALLM 与其他框架的比较：

作者提及了其他近期提出的框架，它们各自有不同的侧重点，例如有的侧重于多模态支持的生产应用[13]，有的侧重于灵活的对话模式[65]，还有的侧重于模拟软件公司的参与者[20]。
而 MALLM 与之相比，具有独特的优势：

全面性和模块化：涵盖了智能体、讨论范式和决策协议等多个方面，为用户提供了更加全面的功能。
可定制性：与其他框架通常提供固定的讨论模式或决策协议不同，MALLM 在智能体、讨论格式和决策制定等方面都具有完全的可定制性，这使得它可以更好地满足不同研究人员的需求，尤其适合进行深入的多智能体大语言模型的研究，为研究人员提供了更多的自由度，能够更深入地探究会话问题解决过程中多智能体大语言模型的性能和特性。
任务适用性：只要提供任务指令，该框架就可以应用于各种文本问题解决任务，具有广泛的应用范围，为不同类型的文本问题解决提供了通用的工具和平台。

Setup

实验设置：

作者使用 MALLM 框架开展实验，所依托的硬件是 8 个 Nvidia A100 GPU，每个GPU具有40GB 的内存，使用的模型是 meta-llama/Meta-Llama-3-70B-Instruct。这为实验提供了强大的计算能力和模型支持。同时，为了让研究更加透明和可复现，将所有的实验参数和提示信息都放在了附录 A 和附录 G 中，方便其他研究者查阅和使用这些信息，有助于他人重复该实验或在该基础上进行进一步的研究。

自动角色分配：

在多智能体讨论中，为智能体分配角色是一个重要环节。然而，对于每个示例都手动指定角色不太现实，因此采用了自动分配角色的方式。
具体做法是利用另一个大语言模型（meta-llama/Meta-Llama-3-70B-Instruct）为每个示例生成一组三个专家角色。这样做的目的是为了激发丰富的讨论，因为不同的专家角色可以带来多样的信念、观点和熟练度，有助于讨论更加全面和深入。
自动角色分配的提示信息在附录 G.4 中，并且这种方法借鉴了之前的 Solo-Performance-Prompting [63] 和 Meta-Prompting [54]等研究成果，证明利用现有大语言模型自动生成和参考适合问题的角色是可行的。
在本研究中，选择使用三个智能体，是综合考虑了结构复杂度和研究深度的结果。相比使用两个智能体，三个智能体可以展现更丰富的结构复杂度，同时又不会因为过于复杂而难以从讨论中提取有价值的信息，为研究提供更有意义的见解。与其他研究不同的是，本研究中的角色是与任务和示例紧密相关的专家角色，而不是像某些研究[47]中使用的个性角色，这是为了更好地契合研究目标，确保智能体在讨论中能发挥其专业性和针对性。

讨论范式：

讨论范式是决定多智能体讨论结构的重要元素。作者采用了尹等人[71]提出的四种讨论范式，即记忆范式、报告范式、接力范式和辩论范式。

通过图 3 可以直观地看到这四种范式在结构上的差异，表 4 则提供了更详细的关于智能体轮次顺序和信息获取情况的信息。
选择这四种范式的主要原因是它们在轮次顺序和信息可见性方面各具特色，能为研究提供多样的视角。以记忆范式为例，所有智能体在每一轮都能参与讨论并获取全部信息，信息交流充分；而报告范式中则有两个智能体不交换信息，且只有一个中心智能体拥有全部信息，信息流动和交流方式相对独特。
这种选择与其他一些研究不同，像[20, 46, 47]这些研究通常只在单一固定的讨论格式上评估系统，而本研究更注重从不同的讨论结构中寻找差异和特征。
虽然孙等人[51]也提出了其他讨论范式，但由于这些范式涉及的智能体数量不同，与本研究设定的三个智能体的情况不符，所以不适合本研究。本研究重点关注的是不同讨论格式带来的特征变化，而不是智能体数量的影响，因此选择这四种范式更有利于达到研究目的，找出与讨论结构相关的特征。

共识决策：

决策机制对于多智能体讨论的结束和最终结果的产生至关重要。这里采用了一种类似共识的决策机制，称为迭代共识，它适用于本研究中的各种生成任务和问答任务。
在这个机制下，智能体在发送的每条消息中会被提示表明他们是否同意当前的方案，具体的提示信息在附录 G.2 中。通过正则表达式文本匹配，可以提取出智能体的同意信息。
达成共识的具体规则是：在前五轮讨论中，要求所有智能体都同意当前的草案；而在第五轮之后，只要多数智能体同意，讨论就可以继续，直至结束。但如果在极少数情况下，智能体无法达成共识，那么在七轮之后，将最新的草案作为最终的解决方案。
这种多数共识机制是一种灵活的决策协议，参考了尹等人[71]的方法。与其他研究相比，它的独特之处在于，有些研究[46]不使用决策机制，有些研究[51]则是使用一个评判智能体来做最终决策，而本研究的多数共识机制更具灵活性和适应性，更能反映智能体之间的动态交互和讨论的动态性，有助于根据不同的讨论情况得出更合适的结果。

4.2Datasets

任务和数据集的选择细节：

任务来源与类型：
作者依据文本生成的分类法[3]挑选了多样化的生成性任务。这些任务旨在全面测试多智能体系统的性能。
涵盖了多种类型，包括：

摘要任务：使用 XSum [39]数据集，旨在评估多智能体系统在将长文本提炼为简短摘要方面的能力。
翻译任务：采用 WMT19 德英数据集[11]，用于考察系统在不同语言间转换的能力。
释义类型生成任务：使用 ETPC [4, 29]的释义对，这是一个相对小众的任务，与常见的摘要等任务相比，它可以在更具针对性的场景中测试多智能体系统的能力，能让我们看到系统在一些特殊情况下的表现。
问答任务：包含SQuAD2.0 [44]、简单伦理问题[16]和 StrategyQA [15]三个不同的数据集，分别对应不同的问答需求，如提取信息能力、伦理考量和推理能力，从多个维度对多智能体系统的性能进行评估。

任务指令列表被放在附录G.1的表 18 中，为实验的具体操作提供指导。
与以往研究的对比：

以前的多智能体研究往往将重点放在特定应用领域，例如故事写作[63]或推理任务[5, 71]，旨在探究多智能体系统在这些领域能发挥的最大优势。
而本研究的不同之处在于选择了广泛多样的任务，旨在全面探索多智能体系统在各种场景下的表现，找出系统表现出色和表现不佳的场景，更深入地了解其性能边界和适用范围，而不是局限于特定任务的性能优化。

数据集子集的选取机制：

资源限制与样本选取的必要性：

由于多智能体讨论过程中需要生成大量的标记（tokens），而可使用的计算资源是有限的，所以无法对整个数据集进行评估，因此需要从每个数据集中选取一个子集进行实验。

抽样计算方法：

作者采用了统计抽样的方法，首先设定了 95%的置信区间和 5%的误差范围（MoE），并保守地假设样本比例p = 0.[8]。
通过公式
其中Z_{0.975}=1.96，代入计算得到n=384.16，将其近似为 385。
然后使用公式
计算最终的子集大小n_{subset}$，该公式考虑了数据集的总体大小N_{dataset}，根据不同数据集的大小对样本数量进行调整，确保在不同数据集下的抽样合理性。
最终每个数据集都得到了几百个样本作为测试集，完整的数据集细节可在表 1 中查看。
这种做法并非本研究首创，其他一些多智能体系统研究也有对数据集子集进行评估的先例[5, 71]，但本研究提供了清晰的样本大小计算依据，增强了实验的科学性和可重复性。

实验的重复和结果评估策略：

多次实验的目的：

为了进一步判断实验结果是否能够准确反映完整数据集的情况，作者采用了多次重复实验的方法。
具体来说，按照 Wang 等人[59]的思路，在随机子集中将每个实验重复五次，这样做可以减少随机误差对实验结果的影响。

标准差的使用：

通过报告每次实验运行之间任务性能的标准差，来衡量结果的离散程度，从而评估实验结果的可靠性。标准差能够帮助我们了解实验结果的稳定性，若标准差较小，说明实验结果较为稳定，更能反映真实情况；反之，则可能存在较大的不确定性，需要进一步分析。

4.3 Metrics

评估指标的总体使用原则：

对于实验中表 1 所列出的各项任务，作者选用了一些已经被广泛认可和使用的评估指标。这是为了确保评估结果的科学性和可靠性，因为这些成熟的指标可以从不同角度衡量系统在不同任务中的性能表现。
对于不同类型的任务，使用了不同的评估指标：

对于生成性任务（包括摘要、释义类型生成和翻译），采用传统的重叠度量指标。这些指标主要是基于文本重叠的原理，通过比较生成的文本与参考文本在某种程度上的重叠程度来评估生成质量。
对于多项选择题任务，采用准确率作为评估指标。准确率可以直观地反映出系统在多项选择场景下正确回答问题的能力，简单明了地衡量系统性能。
此外，除了常规指标外，还考虑了一些特殊的性能评估方面，例如评估生成性任务答案的词汇多样性，以考察系统生成内容的丰富度；以及评估提取式问答任务的可回答性，以了解系统能否准确判断问题是否可解，这些额外的评估维度有助于更全面地了解系统的性能特点。
为了更全面地评估生成性任务，除了基于传统的 n-gram 的评估指标外，还使用了一种基于模型的指标，该指标可以捕捉到一些通过简单的 n-gram 比较难以发现的上下文复杂相似性，使评估结果更加细致和准确。

最终输出的处理和解决方案提取：

在使用思维链（CoT）提示和 MALLM 对话进行实验时，最终输出包含的信息比较复杂，除了所需的解决方案外，还有诸如推理文本、同意表示等其他内容。
之前尹等人[71]采用的通过正则表达式文本匹配提取答案的方法存在局限性，因为不同任务下大语言模型生成的答案可能不具有标准化的格式，不能很好地适应各种数据集。
因此，作者采用了一种新的方法，即向特定的大语言模型（meta-llama/Meta-Llama-3-70B-Instruct）发送提示信息，以此来提取原始的解决方案，相应的提示信息可以在附录 G.5 中找到。这种方式可以更好地从复杂的最终输出中准确提取出所需的解决方案，为后续的评估工作奠定基础。

具体任务的评估指标细节：

摘要任务（XSum）：
使用 ROUGE-1、ROUGE-2 和 ROUGE-L [35]指标。这些指标是专门用于评估摘要质量的。具体来说：

ROUGE-1 是基于一元组（unigram）的重叠度量，计算生成摘要和参考摘要中一元组的重叠情况，反映了词汇层面的匹配程度。
ROUGE-2 是基于二元组（bigram）的重叠度量，从两个词的组合角度评估摘要质量，考虑了词汇之间的顺序关系。
ROUGE-L是基于最长公共子序列（Longest Common Subsequence）的度量，考虑了生成摘要和参考摘要中最长的公共子序列，能够更好地捕捉句子结构和语义连贯性，从更宏观的角度评估摘要的相似性。

释义类型生成任务（ETPC）：

除了使用与摘要任务类似的评估指标（上述的 ROUGE 指标）外，还根据 Wahle 等人[58]的建议使用 BLEU [42]指标。BLEU 指标常用于机器翻译和文本生成领域，通过计算生成的释义文本和参考释义文本之间的 n-gram 重叠度，来评估生成的释义的质量，从不同长度的 n-gram 角度衡量生成的文本与参考文本的相似性，是评估文本生成质量的经典指标。

翻译任务（WMT19 de-en）：

同样使用 BLEU [42]指标进行评估，这是因为在翻译任务中，需要衡量从德语到英语的翻译结果与参考翻译的相似度，BLEU 指标通过计算 n-gram 的重叠情况，能够在词汇、短语等不同层次上评估翻译的准确性和流畅性，为翻译质量的评估提供量化标准。

SQuAD 2.0 任务：

对于提取式问答任务，使用 F1 和精确匹配（Exact Match）分数来评估系统性能[44]。F1 分数综合考虑了召回率和精确率，精确匹配则直接判断系统生成的答案是否与正确答案完全一致，从不同的精度和召回维度评估系统从文本中提取正确信息的能力。
为了评估系统对不可回答问题的判断能力，作者修改了对智能体的任务指令，如果系统无法从源文档中找到答案，要求智能体输出[unknown]作为解决方案。然后通过正则表达式文本匹配来检查这种分类的准确率，从而评估系统在判断问题可回答性方面的性能，从另一个角度考察系统的能力，不仅仅是回答问题的能力，还包括对问题可解性的判断能力。

StrategyQA 和 Simple Ethical Questions 任务（多项选择任务）：

对于这两个多项选择任务，根据任务指令，要求模型输出与正确答案相对应的字母。在评估时，使用准确率作为指标，直接反映系统正确选择答案的比例，简单直观地衡量系统在这些任务中的性能。

生成性任务的词汇多样性评估（Distinct-n）：

使用 Distinct-1 和 Distinct-2 指标，它们是无参考指标，通过计算生成响应中不同一元组（Distinct-1）和二元组（Distinct-2）的数量，来评估生成内容的词汇多样性。这可以反映出系统生成的文本在词汇使用上的丰富度和多样性，避免生成内容过于单调或重复。

基于模型的指标（BERTScore）：

为了避免仅依赖基于 n-gram 的评估指标的局限性，对于生成性任务添加了 BERTScore [73]指标。BERTScore 利用嵌入技术，能够从语义和上下文的角度评估生成文本与参考文本的相似性，这是因为一些语义上的相似性无法通过简单的 n-gram 比较来准确体现，而 BERTScore 可以发现这些更复杂的上下文相似性，从而更全面、准确地评估生成性任务的性能。

5 Experiments

实验一：

任务评估对象：多智能体系统的任务执行情况。
评估方式：涉及六项不同任务和四种讨论范式，这表明在实验中会对多个任务场景以及多种不同的讨论模式进行考察。
评估目标：找出这些多智能体系统在不同任务和讨论范式下的关键优势和不足，这有助于研究者了解多智能体系统在不同条件下的性能表现，可能为后续的改进或进一步研究提供依据。

实验二：

关注重点：多智能体讨论的趋同情况。
具体操作：旨在解释对话是如何展开的，这里的趋同可能是指多智能体之间在讨论过程中逐渐形成的某种一致性，例如对某个问题的看法、决策或解决思路的一致性等。
影响因素分析：分析趋同情况会依据任务的不同而有所不同，并且讨论范式也会对趋同过程产生影响，这意味着不同的任务需求和讨论规则会影响多智能体讨论的最终结果，有助于探究在不同条件下多智能体之间的协作与信息交流机制。

实验三：

量化内容：大语言模型（LLM）智能体在对话进程中的影响力。
研究方向：主要从智能体的角色设定和生成内容长度两个方面来考察。智能体的角色设定可能会影响其在对话中的态度、行为和贡献，而生成内容长度可能会影响对话的信息量和发展方向，通过量化这些因素对对话进程的影响，可以更深入地理解大语言模型智能体在整个对话系统中的作用。

5.1 Task Performance

实验目的与研究问题

将多智能体LLM用于对话任务解决的概念与单一模型在多种下游任务（基本任务：摘要、翻译等；复杂任务：策略性和道德性问答）上进行对比评估，旨在揭示多智能体讨论的优缺点和差异，提出多个关键研究问题：

哪些讨论范式优于单一LLM，其性能是否依赖任务？
讨论的内部通信结构的重要性如何？与思维链提示相比多智能体系统的表现怎样？
多智能体间讨论有何特征？多智能体LLM在识别不可答问题上是否更有效？

实验设置与方法

遵循第4.1.1节的方法，将记忆、接力、报告、辩论四种讨论范式与以思维链为基线的单一LLM对比。

实验结果

性能与任务的关系：

多智能体LLM在复杂推理任务（策略性和道德性问答）上比带思维链的单一LLM展现更强推理能力，但在基本任务（如翻译）中因问题漂移而表现不佳。
多智能体系统在复杂任务上的性能改进显著，如在战略和道德性问答中准确率比思维链基线高出多达4.0%，体现智能体对方案的迭代细化优势，与部分前人研究相符；但在基本任务中改进不明显，在WMT19翻译任务中BLEU得分甚至大幅下降，问题漂移导致智能体可能偏离问题和参考解，趋向讨论而非得出单一答案，而不同基本任务的表现受任务特性影响，如翻译答案空间受限，摘要则有复杂语境要求。

内部通信结构的影响：

集中式讨论范式（如报告范式）可提高多智能体LLM的道德一致性，在简单道德问题数据集上准确率提高多达6.6%，因该范式信息可见性不同，能促进更优的决策过程，未来应进一步研究道德一致性及探索更多集中式范式，可考虑性别偏见和毒性等相关数据集。

识别不可答问题的能力：

多智能体LLM在识别不可答问题方面与单一LLM相比无显著差异，在SQuAD 2.0数据集上最佳范式（接力）仅将可答性检测准确率提高0.5%，表明二者都不够准确，需额外系统辅助。

主要结论

多智能体LLM推理能力强于带思维链的单一LLM。
多智能体系统可提升最终响应的道德一致性。
具有信息限制的集中式范式利于道德一致性讨论。
思维链在基本任务上因问题漂移优于多智能体LLM。
多智能体和单一LLM在检测不可答问题时表现相近。

5.2 Discussion Convergenc

实验目的和研究问题

旨在通过研究多智能体讨论的长度，深入理解其从开始到达成最终解决方案的过程，探究共识机制对讨论趋同的影响及对任务性能的影响。关键研究问题包括不同讨论范式与单一LLM的有效性比较、内部通信结构的重要性、影响任务性能的因素（尤其关注讨论长度的影响）、LLM智能体讨论的特征（重点是对困难例子的讨论）。

实验设置与方法

第一部分实验遵循4.1.1节的方法，结合五次实验的样本评估，以交换消息数来比较讨论范式，测试标记长度对任务性能的影响。
第二部分实验比较MALLM和单一模型在不同回合数的性能，将二者在同一子集上进行单次非随机化运行并拆分结果，以确保可比性。

实验结果

讨论长度对任务性能的影响：

取决于任务，推理任务受益于更多讨论回合，但长时间讨论可致道德一致性崩塌。大多数讨论收敛快，多在前三回合结束，基本任务的性能不因讨论长度而提高，且智能体偏好会拖长讨论致问题漂移，而简短讨论能提升道德一致性，长时间讨论会导致一致性崩塌，可能因智能体更具探索性，问题漂移可能是促成因素之一，需进一步探究其他因素。

内部通信结构的重要性：

智能体完全信息访问能加速共识达成，不同范式的信息吞吐量不同，记忆范式共识最快，辩论范式需最多消息交换，接力范式因信息可见性受限导致共识慢，尽管其性能与记忆范式相似，因此响应速度重要时应选智能体间透明的范式。

对困难样本的讨论情况：

多智能体LLM会根据问题难度调整讨论长度，困难样本通常需要更多回合，其性能会随回合数增加而下降，道德一致性下降明显，仅策略性问答任务在困难样本的长讨论中受益，因该任务需多智能体的推理和规划能力。

主要结论

多数多智能体讨论在前三回合达成共识。
完全信息访问可加快共识。
短讨论可减轻问题漂移。
长讨论能提高推理能力但致道德一致性崩塌。
多智能体LLM会根据问题难度调整讨论时长。

5.3 Impact of Agents

实验概述

旨在研究多智能体讨论中个体智能体的影响，考虑智能体的角色（personas）和在讨论范式中的位置。关注角色对讨论结果的量化影响、智能体响应长度与角色和结构的关系、多智能体与单LLM的词汇多样性差异，以及这些因素对任务性能的影响。

实验设计

实验将原有的三个专家角色中的一个替换为中性草案提议者智能体进行对比，不改变其他参数。通过关注最核心智能体，查看前十个最常生成的角色在不同范式中的表现，研究响应长度和决策垄断问题，还通过散点图研究总标记数、平均消息标记数与任务性能的关系。

实验结果

角色对任务的影响：

角色设定对复杂任务（如策略性问答、道德性问答）有益，但会损害简单任务（如翻译）的性能，在复杂任务中体现出超越单模型的价值，而对基本任务影响不显著，其影响与任务复杂性有关，复杂任务使用角色设定更好，简单任务不建议使用。

词汇多样性差异：

多智能体系统中使用角色设定可提高词汇多样性，尤其在ETPC数据集上有显著提升，但会导致ROUGE-L分数下降，如何在保证性能的同时利用词汇多样性有待研究。

响应长度与角色和结构的关系：

范式中的核心智能体在生成性任务中贡献更长信息，不同任务和范式下的角色生成长度不同，生成性任务对结构变化更敏感，可能存在响应长度不平衡的问题。大部分任务中响应长度与对响应的同意率无明显相关性，但XSum数据集在这方面表现不同，较长响应在该任务中更易获同意，可能导致讨论垄断，此结果支持了相关垄断假设，未来需进一步研究垄断因素。
对XSum数据集和记忆范式的散点图分析显示，智能体响应的平均长度和总标记数对任务性能影响小，较长讨论往往导致性能下降，还需更细粒度地评估个体智能体响应长度。

主要结论

专家角色设定利于复杂任务，可提升词汇多样性，核心智能体在生成任务中贡献较长信息，在摘要任务中较长响应可能引发讨论垄断风险。

6 Epilogue

主要研究内容及成果

构建与实验：通过文献调研构建多智能体LLMs领域及分类法，提出MALLM框架用于多智能体对话问题解决的研究，开展实验探索讨论范式有效性、任务性能影响因素和多智能体对话特征等。
研究问题结论：

多智能体系统在复杂任务上优于单一模型，但在基本任务因问题漂移而性能受损，信息访问对道德一致性答案重要。
讨论长度和个体智能体影响任务性能，多数讨论三回合内达共识，部分复杂任务受益于长讨论，个体智能体在复杂任务中对性能有影响，且核心位置智能体在生成任务中会致响应长和摘要任务垄断。
多智能体系统对困难问题讨论时间长且适应复杂性，专家角色能提升词汇多样性，但不影响抽取式问答的不可答问题检测。

未来工作方向

可在复杂任务、系统安全、个体智能体影响和实证研究方面开展，包括测试高复杂度数据集、设计安全模块、探索防止讨论垄断架构、研究其他角色和决策机制等。

研究局限

因范围和资源限制，未评估所有影响结果的参数，报告所用参数并提供代码，数据集抽样受资源限制，提供抽样说明和结果标准差表示代表性。

论文：Multi-Agent Large Language Models for Conversational Task-Solving