如何让大语言模型(LLMs)“智能涌现”?关键技术之一是思维链(Chain of Thought,CoT),它通过引导大模型,一步一步模拟人类思考过程,可有效增强大模型的逻辑推理能力。
ingFang SC", Cambria, Cochin, Georgia, Times, "Times New Roman", serif;letter-spacing: normal;text-wrap: wrap;background-color: rgb(255, 255, 255);margin-top: 0px;margin-bottom: 16px;">而自洽性方法(Self-Consistency,SC)一直是思维链推理中广泛使用的解码策略。SC 通过生成多个思维链并取多数答案作为最终答案,来提高模型的性能。尽管在各种多步推理任务中带来了显著的性能提升,但它是一种高成本的方法,需要进行预设大小的多次采样。ingFang SC", Cambria, Cochin, Georgia, Times, "Times New Roman", serif;letter-spacing: normal;text-wrap: wrap;background-color: rgb(255, 255, 255);margin-top: 0px;margin-bottom: 16px;">在 ICLR 2024 上,小红书搜索算法团队提出一种简单且可扩展的采样过程 —— 即早停自洽性方法(Early-Stopping Self-Consistency,ESC),它能在不牺牲性能的情况下,大幅度降低 SC 的成本。在此基础上,团队进一步推导出一种 ESC 控制方案,以动态选择不同任务和模型的性能-成本平衡。ingFang SC", Cambria, Cochin, Georgia, Times, "Times New Roman", serif;letter-spacing: normal;text-wrap: wrap;background-color: rgb(255, 255, 255);margin-top: 0px;margin-bottom: 16px;">随后,小红书和北理工的研究者们选择了三种主流推理任务(数学,常识和符号推理),并利用不同规模的语言模型进行实验。实验结果显示,ESC 在六个基准测试中显著降低了平均采样次数,包括 MATH(-33.8%),GSM8K(-80.1%),StrategyQA(-76.8%),CommonsenseQA(-78.5%),Coin Flip(-84.2%)和 Last Letters(-67.4%),同时几乎保持原有性能。ingFang SC", Cambria, Cochin, Georgia, Times, "Times New Roman", serif;letter-spacing: normal;text-wrap: wrap;background-color: rgb(255, 255, 255);margin-top: 0px;margin-bottom: 16px;">这说明了 ESC 的有效性和创新性,它能够在保证推理性能的同时显著减少采样次数,从而降低计算成本。这一点对于大语言模型非常重要,因为这些模型的推理过程通常需要大量的计算资源。ingFang SC", Cambria, Cochin, Georgia, Times, "Times New Roman", serif;letter-spacing: normal;text-wrap: wrap;background-color: rgb(255, 255, 255);margin-top: 0px;margin-bottom: 16px;">图 1 : GPT-4 在 MATH 数据集采样窗口内的平均熵得分
早停止(Early-Stopping)是一种被广泛用于训练模型时的技术,以防止过拟合现象发生。在本文中,我们引入早停止策略,应用于减少多次采样过程的成本。与原始的 SC 相同,ESC 是完全无监督且与模型无关,无需任何人工注释或额外训练。我们推导出了在 SC 中有或无早停止方法的结果不一致概率的理论上限,结果表明 ESC 有极大的概率保持性能。此外,我们还提出一个 ESC 动态控制方案:通过选择窗口大小和最大采样次数,动态地为不同任务和模型找到最佳的性能-成本平衡点,以满足实际需求。
图 2 : ESC 与原始 SC 过程对比
如图展示 ESC 与原始 SC 的完整过程对比。我们将大采样量(在本例中等于 20)分成几个连续的小窗口(在本例中为 5),当一个窗口内的答案都相同时停止采样,即预测答案分布的熵值为零。
2.1 自洽性方法分析
自洽性方法的核心思想在于,对于一个复杂问题,通常允许有多种推理思路,这些思路最终都能导向相同的正确答案。基于此,在采样量为 下的投票过程可以表述为:
依据 2.1 的分析,我们设计了一种多路采样的动态截断策略,实现以更少成本获得与原始采样量相当的性能表现。具体而言,我们以滑动生成窗口代替一次性生成所有样本,并利用窗口内的分布熵或相似度作为截断条件进行早停操作。
当窗口内的所有预测结果一致时,答案分布的熵为 0,这表明该样本的投票结果与理论上采样次数无限多时的结果高度一致。因此,一旦出现这种情况,我们便停止进一步采样。
ESC 在几乎不影响性能的情况下显著降低了成本
ESC是一个对于最大采样量和窗口大小鲁棒的解码过程
成本节省与性能表现呈正相关
如表 1 和表 2 所示,一个明显的现象是成本节约与性能呈正相关。这是因为更佳的性能通常不需要更大的采样量。然而,ESC 不需要任何模型能力和任务难度的先验知识。
3.3 ESC 在开放域的实验结果
表 4 : ESC 在开放域的实验结果
3.4 ESC 的鲁棒性研究
表5:不同示例组的实验结果
| 欢迎光临 链载Ai (https://www.lianzai.com/) | Powered by Discuz! X3.5 |