|
随着o1 模型的发布,OpenAI提出了一种全新的大规模推理模型(Large Reasoning Model,LRM),o1 被设计为弥补LLMs在推理和规划任务中的局限。o1 模型声称通过新的架构和训练方式,能够实现更复杂的推理能力,尤其是在链式推理(Chain-of-Thought)上具备更强的表现。 亚利桑那州立大学的研究人员基于 PlanBench 基准测试,评估了当前 LLMs 和新型 LRM( OpenAI 的 o1 模型)在规划任务中的表现。借助PlanBench基准,评估当前最先进的LLMs和新兴的LRMs在规划任务上的表现,并探讨这些模型在面对复杂推理任务时的优劣。此外,研究还探讨了LRMs的效率、准确性及在现实应用中的可行性和局限性,为未来AI模型的发展提供指导。 规划能力,这是智能体的一项核心能力,能够帮助智能体设计一系列行动来实现预期目标。规划问题一直是AI研究的重要组成部分,尤其是在自动化推理、任务执行等领域有广泛应用。 研究者为了系统评估LLMs在规划任务中的表现,开发了PlanBench,这是一个可扩展的基准测试集,专门用于测试模型在规划任务中的能力。PlanBench最初于2022年推出,主要用于测试诸如块堆积(Blocksworld)等经典规划问题。在该基准上,尽管LLMs的体量越来越大,但它们的表现并没有显著改善。 PlanBench基准PlanBench是一套用于评估大语言模型(LLMs)和推理模型(LRMs)在规划和推理任务上表现的基准测试工具。它由亚利桑那州立大学的研究人员开发,旨在测试模型在推理任务中的表现,尤其是在规划问题上的解决能力。 PlanBench 主要特点:广泛的任务集:PlanBench 包含多种类型的规划任务,涉及不同的领域和问题复杂度。例如:
Blocksworld:经典的人工智能规划问题,要求模型根据一组积木的初始状态,将它们按指定顺序堆叠起来。 Mystery Blocksworld:这是 Blocksworld 的变体,问题的语言表述被混淆,增加了推理的复杂性。 随机化版本:任务中的某些元素(如语法和表达)被随机化,进一步测试模型的通用性和处理复杂语言的能力。
不同的提示模式: 规划与推理:PlanBench 专注于测试模型的规划能力,即如何根据当前状态制定一系列步骤来达成目标。相比传统语言任务,规划任务需要模型具备更高层次的推理能力。 动态评估:PlanBench 是一个可扩展的测试平台,开发人员可以根据新的模型和问题集扩展任务范围,确保基准测试能够持续反映出模型的能力。 具体任务类型:Blocksworld 任务:
Blocksworld 是 PlanBench 中的一个经典问题集,要求模型根据积木的初始状态生成将积木堆叠到目标状态的计划。 这些任务的难度随着积木数量的增加而上升,任务的步数可以从2步增加到多达16步。 通过这个任务,研究人员评估了模型的规划精度、效率以及在不同问题规模上的表现。
Mystery Blocksworld 任务: 随机化混淆任务: 无解任务: 评价指标:准确性:模型完成任务的正确率。准确性指标用来衡量模型是否能够根据任务的描述生成正确的解决方案。 推理时间:完成每个任务所需的时间,尤其是在复杂任务中的时间消耗。这个指标用来评估模型的效率。 成本:模型在推理过程中使用的计算资源及其费用,尤其是在较复杂任务中的成本。例如,像 OpenAI 的 o1 模型,其推理成本较高。 健壮性:模型在不同复杂性和变异度的任务(如混淆任务和随机化任务)中的表现一致性。
评估结果评估模型评估涵盖了多个模型,包括: Claude 3.5 (Sonnet) Claude 3 (Opus) GPT-4(不同版本,包括GPT-4o和GPT-4 Turbo) LLaMA系列模型(LLaMA 3.1和LLaMA 3) Gemini模型 o1 模型(o1 -preview和o1 -mini)
这些模型在PlanBench的600个经典积木问题(Blocksworld)和Mystery Blocksworld问题上进行了评估。
主要测试任务模型被评估的核心任务是Blocksworld,其中模型需要解决三到五块积木的堆叠和移动问题。此外,还进行了更具挑战性的Mystery Blocksworld测试,即语法被模糊处理但语义相同的问题,以测试模型的更高推理能力。 测试结果**传统 LLMs(如 GPT 系列)**在规划任务上的表现相对较差,尤其是在需要复杂推理的任务中。比如在Blocksworld测试中,虽然模型可以通过自然语言提示解决一些简单的规划问题,但表现普遍不稳定,尤其在更复杂的Mystery Blocksworld(一种经过混淆的版本)中,表现非常糟糕。 例如,GPT-4 和其他模型在 Blocksworld 测试中的表现仅为 28% 至 59% 的准确率,而在 Mystery Blocksworld 测试中,几乎所有 LLM 模型的准确率都不到 5%。 o1 模型在 Blocksworld 基准测试中表现优异,达到了97.8%的准确率,这是现有模型中的最高表现,明显优于其他 LLMs。 在Mystery Blocksworld这种混淆版本的测试中,o1 模型也取得了52.8%的准确率,大幅超越其他模型。然而,虽然这个表现有所提升,但仍然远未达到令人满意的水平。 在更复杂的测试中,比如Randomized Mystery Blocksworld,o1 模型的准确率则进一步下降,仅为37.3%。

Blocksworld测试结果 在标准的Blocksworld问题上,o1 模型显著优于其他LLMs,尤其是在**零样本推理(Zero-shot)和单样本推理(One-shot)**场景中。详细结果如下: o1 -preview模型在600个Blocksworld问题中的准确率为97.8%,这是所有模型中的最高表现。 Claude 3.5和Claude 3的准确率分别为54.8%和59.3%。 LLaMA 3.1 405B模型的准确率为62.6%,是LLMs中表现最好的。 GPT-4的表现中规中矩,准确率为34.6%,而GPT-4 Turbo为40.1%。 其他模型,如Gemini 1.5 Pro和Gemini 1 Pro的表现则明显较差。
Mystery Blocksworld测试结果 Mystery Blocksworld问题增加了额外的难度,因为问题语法被刻意模糊处理。这使得大多数模型在这个测试中的表现远低于在标准Blocksworld中的表现。 o1 -preview模型的准确率为52.8%,虽然显著高于其他模型,但相比于标准Blocksworld问题有明显下降。 Claude 3.5和Claude 3的表现分别为54.8%和59.3%。 GPT-4和其他模型在Mystery Blocksworld上的表现则普遍较差,准确率在8.8%至35.5%之间浮动。
更复杂问题的评估 为了进一步测试模型的推理能力,研究者评估了o1 在更大规模的Blocksworld问题上的表现,这些问题涉及更多的积木块和更长的规划步骤。 不可解问题的评估 研究者还设计了100个不可解的问题,来测试模型能否识别出问题的不可解性。 推理时间与成本研究者还评估了模型在推理任务中的时间消耗和计算成本: o1 -preview模型在每个实例上花费了大约40秒,而在Mystery Blocksworld问题上,推理时间增加到83秒。相比之下,经典的规划算法(如Fast Downward)能够以接近零成本和每个实例0.265秒的时间解决问题。 经济成本方面:尽管 o1 模型在某些任务上具有较高的准确性,但其推理过程非常耗时且昂贵。例如,每 100 个实例的推理成本高达42.12 美元,远高于传统 LLM 模型的推理成本。 研究者在短期内对o1 模型的评估花费了**$1897.55美元**,这使得该模型的实际应用变得昂贵且不具备可持续性。
 OpenAI 的 o1 模型的详细表现
1.Blocksworld 测试:Blocksworld是一个经典的规划问题,模型需要将几个积木按照指定的顺序进行堆叠。任务的难度由积木的数量和步骤复杂性决定。 2.Mystery Blocksworld 测试(经过混淆的 Blocksworld):Mystery Blocksworld 是 Blocksworld 的混淆版本,语义相同但语法复杂,旨在测试模型在更复杂语言下的推理能力。 3.Randomized Mystery Blocksworld 测试(随机混淆版本):这一测试版本进一步复杂化了问题,通过随机字符串和全新语法混淆问题,进一步考验模型的推理和适应能力。 4.较长的规划任务:为了进一步测试 o1 模型在处理较长步骤规划任务中的表现,研究者还设计了较大的 Blocksworld 任务(包含 6 至 20 块积木,需要 20 到 40 个步骤来完成计划)。 5.无解任务的表现:
模型识别无解问题(即某些规划问题没有可行的解决方案)的能力是推理能力的一个重要方面。 6.推理时间和成本:o1 模型的推理性能虽然优于传统 LLMs,但其推理成本相对较高。论文中对比了不同模型在推理成本上的表现。 7.与传统规划器的对比:与传统规划器(如Fast Downward)相比,o1 模型虽然在准确率上有明显提升,但仍无法与传统规划器的效率和保证性相比。 性能与成本的权衡1. 性能方面o1 模型(LRM)在 PlanBench 基准测试中的性能显著优于传统的 LLMs,尤其是在经典积木堆叠问题(Blocksworld)上的表现非常突出。例如: 然而,性能并不稳定: 2. 成本方面虽然 o1 模型在规划任务中的表现较好,但其高昂的计算成本和推理时间引发了对其实际应用的担忧。 推理时间 经济成本 o1 模型的推理成本部分来源于其生成的“推理 token”,这些 token 不会直接显示给用户,但仍会被计费。模型在推理过程中生成的这些内部 token 显著增加了每次推理的成本,而用户无法控制推理 token 的数量,因此推理成本难以预测。此外,o1-mini 尽管推理成本较低,但其性能也明显不如 o1-preview。
3. 性能与成本的平衡问题4. 与经典规划算法的对比研究还对比了 o1 模型和经典的规划算法(如 Fast Downward)的性能和成本: 5. 成本效益分析论文的评估表明,尽管 o1 模型在规划任务中的准确性大幅提升,但其高昂的推理成本使得在实际应用中的广泛部署变得不可行。特别是在需要大规模推理和多次调用的场景下,o1 模型的高成本会迅速累积,成为阻碍其广泛应用的瓶颈。 相比之下,经典规划算法以及通过结合 LLMs 的“LLM-Modulo”框架能够在更低成本和更短时间内解决类似问题。因此,对于那些需要既定准确性和可验证性解决方案的任务,o1 模型虽然表现优异,但不一定是最佳选择。 结论根据论文中对PlanBench基准测试的详细评估,研究者得出了一系列关于当前大型语言模型(LLMs)和新型推理模型(LRMs,如 OpenAI 的 o1 模型)的结论。这些结论揭示了这些模型在推理和规划任务中的优势与局限性,以及未来研究方向的建议。 1.LLMs 在规划任务中的表现有限2.OpenAI o1 模型的进展与局限o1 模型作为一种新型的大规模推理模型(LRM),相比传统的 LLMs,在规划任务中的表现有显著提升,尤其在 PlanBench 的 Blocksworld 基准测试中表现优异。其在 Blocksworld 的准确率高达97.8%,远超其他 LLM 模型。 性能提升:o1 模型在特定领域的规划任务上取得了明显的进展,尤其是在经典 Blocksworld 任务中几乎接近完美。然而,这种提升并非在所有情况下都稳健。 任务长度的影响:在需要较长规划步骤的任务中,o1 模型的性能急剧下降。对于需要 20 步以上的任务,其准确率仅为23.63%。这表明,即使是推理能力较强的 o1 模型,在处理复杂多步规划问题时仍然缺乏足够的鲁棒性。
3.模型对无解问题的处理仍不成熟4.成本与效率的权衡问题推理成本高昂:尽管 o1 模型在规划任务上表现更好,但其推理成本也显著增加。论文中指出,o1 模型的推理成本大幅高于其他 LLMs。例如,处理 100 个实例的推理成本为42.12 美元,而 GPT-4 的成本仅为0.65 美元。这种高昂的推理成本限制了 o1 模型的广泛应用。 推理时间:o1 模型在处理复杂规划任务时,所需的时间也远高于传统规划算法。即便是最简单的任务,o1 模型的推理时间也显著长于专用规划器(如Fast Downward),而且推理结果并不能提供明确的正确性保证。
5.与传统规划器的对比传统规划器(如 Fast Downward)以其高效性和准确性在规划任务中仍然占据优势。论文指出,Fast Downward 在所有 Blocksworld 任务中都能以接近即时的速度(每个任务 0.265 秒)给出正确答案,且提供了 100% 的准确率和正确性保证。 模型的可靠性问题:相比之下,o1 模型虽然在某些复杂任务上表现优于传统 LLMs,但其结果的正确性并没有得到充分的保证。此外,o1 模型的推理时间和成本远高于传统规划器,使其在实际应用中不具有明显优势。
6.模型的不可解释性问题7.未来研究方向提高模型的鲁棒性:尽管 o1 模型在特定任务上表现优异,但其性能在复杂任务上的下降表明,未来研究需要进一步提高模型的鲁棒性和通用性,特别是在面对更复杂、非结构化和混淆语言任务时。 效率和成本优化:研究人员建议,未来模型应在保证推理能力的基础上,重点优化推理的成本和效率,以提高其实际应用的可行性。 规划能力的提升:研究表明,当前 LLMs 和 LRMs 在规划任务上的能力仍有限。未来的模型可能需要结合外部验证机制(如通过与专用规划器结合)来提高规划的准确性和可控性。
论文:https://arxiv.org/pdf/2409.13373
|