当技能库超过50个，AI的选择能力会断崖式下跌

显示全部楼层

多Agent系统（Multi-Agent System，MAS）近年来在复杂推理任务中表现出色，但代价是巨大的计算开销。一个自然的问题是：能否用单个agent配合技能库来替代多agent协作，同时保持性能？论文通过实验发现，这种"编译"策略确实可行——在保持准确率的同时，token消耗降低54%，延迟降低50%。然而，更深层的问题随之浮现：当技能库规模扩大时，AI的技能选择能力会如何变化？

论文揭示了一个惊人的现象：技能选择准确率并非逐渐下降，而是在达到某个临界规模后急剧崩溃，呈现出类似人类认知容量极限的"相变"特征。

从多agent到单agent：一种"编译"视角

论文提出将MAS（Multi-Agent System，多智能体系统）"编译"为SAS（Single-Agent with Skills，单agent技能系统）的框架。在MAS中，专门化的agent通过自然语言进行显式通信协作；而在SAS中，这些角色被内化为可选择的"技能"，在统一的上下文中执行。

技能被定义为一个三元组：语义描述符（用于技能选择）、执行策略（指定如何执行）、以及执行后端（外部工具或内部执行）。与工具不同，技能不仅封装了"做什么"，还封装了"如何推理"。

[Figure 1: 基于技能的agent：效率提升与扩展限制]图(a)展示了将多agent系统编译为单agent技能库可减少通信开销，降低延迟和token使用；图(b)展示了技能选择准确率随库规模增长呈非线性下降，在容量阈值处出现相变，层级路由可通过将技能组织成结构化类别来恢复可靠选择。

哪些多agent系统可以被编译？

论文明确了可编译的条件：(1)通信可序列化——agent交互可以按顺序排列而不丢失信息；(2)共享历史——agent输出仅依赖共享历史，无私有状态；(3)同质骨干——所有agent使用相同的底层模型。

[Table 1: 常见多agent架构的可编译性]流水线架构、路由-工作者架构、迭代优化架构可编译；辩论/对抗架构、并行采样、私有信息架构不可编译。

编译效率：token减少54%，延迟减少50%

论文在三个基准任务上验证了编译效率：GSM8K（数学推理）、HumanEval（代码生成）、HotpotQA（多跳问答）。

[Table 2: 基准任务、MAS架构和agent到技能的映射]每个MAS被编译为等效的SAS，在单次LLM调用中执行相同计算。GSM8K使用分解器、求解器、验证器三个agent；HumanEval使用编码器、评论器、优化器；HotpotQA使用路由器、检索器、推理器、聚合器。

[Table 3: MAS与SAS编译后的性能和效率对比]编译后的SAS在所有基准上准确率变化在-2.0%到+4.0%之间，平均提升+0.7%；token消耗平均减少53.7%，延迟平均减少49.5%，API调用从3-4次减少到1次。

在HotpotQA上，SAS甚至比MAS准确率高出4.0%，可能是因为统一上下文使检索和推理步骤之间的信息整合更好。

认知科学视角：技能选择的容量极限

论文的核心贡献在于揭示了技能选择的扩展规律。借鉴认知科学的四个基础理论：

(1)希克定律：人类选择反应时间随选项数量对数增长，但在约8个选项后关系崩溃。

(2)认知负荷理论：米勒的"神奇数字7"揭示了工作记忆的基本限制，当认知负荷超过容量时，性能急剧下降。

(3)基于相似性的干扰：谢泼德的泛化普遍定律表明，混淆概率随心理距离指数衰减；语义相似的技能会在选择过程中相互干扰。

(4)层级处理与分块：专家通过层级组织管理复杂性，每层4-8个项目与工作记忆容量匹配。

扩展定律：相变而非渐进衰退

论文提出技能选择准确率遵循复合衰减定律，由容量阈值κ和语义干扰共同控制。

[Figure 2: 扩展定律拟合质量]在GPT-4o-mini和GPT-4o上，提出的函数形式ACC ≈ α/(1+(|S|/κ)^γ)实现了优异拟合（R²>0.97）。GPT-4o-mini的拟合参数为α=0.96、κ=91.8、γ=1.71；GPT-4o为α=0.98、κ=86.7、γ=1.65。

实验结果显示：在小规模（|S|≤20）时，准确率保持在95%以上；但在|S|=50-100附近急剧下降，到|S|=200时降至约20%。衰减率γ>1表明超过容量阈值后的衰退速度快于线性。

语义混淆才是罪魁祸首

论文设计了控制实验，为每个基础技能生成0、1或2个"竞争者"技能——描述相似但操作不同。

[Figure 3: 技能竞争者对选择准确率的影响]无竞争者时（绿色），即使|S|=20准确率仍为100%；1个竞争者（橙色）导致准确率下降7-30%；2个竞争者（红色）导致下降17-63%。

这证明了语义结构决定选择难度，而非单纯的库规模。在相同|S|=20时，用基础-竞争者对替换独特技能会导致18-30%的准确率下降。

指令复杂度的影响出乎意料

论文测试了三种执行策略复杂度（简单约30 token、中等约100 token、复杂约300 token）对选择准确率的影响。

[Figure 4: 执行策略复杂度对选择准确率的影响]与预期相反，三种复杂度水平在两个模型上都显示出基本重叠的性能曲线，差异在标准误差范围内。

这一"零结果"表明，现代transformer架构可能能够有效过滤长上下文中的相关信息，减轻了复杂策略带来的预期认知负荷。

层级路由：突破容量限制的解决方案

当平面选择失败时，层级路由可以恢复可靠的扩展。通过将技能选择分解为从粗到细的决策，确保每个决策点涉及的选项数量低于容量阈值。

[Figure 5: 层级路由对选择准确率的影响]蓝色为平面选择，红色为朴素领域层级。层级路由在技能库规模扩大时有效缓解了选择准确率的下降。

这与认知科学中关于分块和菜单设计的发现一致：将压倒性的选择集转化为可管理的决策序列。

论文的三个主要贡献值得关注：(1)证明了基于技能的系统可以在显著降低token使用和延迟的同时近似多agent性能；(2)刻画了技能选择的非线性扩展限制，确定了容量阈值，并证明语义混淆而非库规模本身驱动了性能下降；(3)展示了层级路由可以缓解扩展限制。

这项工作为设计可扩展的基于技能的agent系统提供了认知科学基础的设计原则：技能描述符应强调独特特征，避免可能适用于多个技能的通用描述。