OpenAI 推理模型 o1 评估研究报告准确率高达 97.8% 远超其他 LLM 模型但成本很高

显示全部楼层

随着o1 模型的发布，OpenAI提出了一种全新的大规模推理模型（Large Reasoning Model，LRM），o1 被设计为弥补LLMs在推理和规划任务中的局限。o1 模型声称通过新的架构和训练方式，能够实现更复杂的推理能力，尤其是在链式推理（Chain-of-Thought）上具备更强的表现。

亚利桑那州立大学的研究人员基于 PlanBench 基准测试，评估了当前 LLMs 和新型 LRM（ OpenAI 的 o1 模型）在规划任务中的表现。借助PlanBench基准，评估当前最先进的LLMs和新兴的LRMs在规划任务上的表现，并探讨这些模型在面对复杂推理任务时的优劣。此外，研究还探讨了LRMs的效率、准确性及在现实应用中的可行性和局限性，为未来AI模型的发展提供指导。

规划能力，这是智能体的一项核心能力，能够帮助智能体设计一系列行动来实现预期目标。规划问题一直是AI研究的重要组成部分，尤其是在自动化推理、任务执行等领域有广泛应用。

研究者为了系统评估LLMs在规划任务中的表现，开发了PlanBench，这是一个可扩展的基准测试集，专门用于测试模型在规划任务中的能力。PlanBench最初于2022年推出，主要用于测试诸如块堆积（Blocksworld）等经典规划问题。在该基准上，尽管LLMs的体量越来越大，但它们的表现并没有显著改善。

PlanBench基准

PlanBench是一套用于评估大语言模型（LLMs）和推理模型（LRMs）在规划和推理任务上表现的基准测试工具。它由亚利桑那州立大学的研究人员开发，旨在测试模型在推理任务中的表现，尤其是在规划问题上的解决能力。

PlanBench 主要特点：

广泛的任务集：PlanBench 包含多种类型的规划任务，涉及不同的领域和问题复杂度。例如：

Blocksworld：经典的人工智能规划问题，要求模型根据一组积木的初始状态，将它们按指定顺序堆叠起来。
Mystery Blocksworld：这是 Blocksworld 的变体，问题的语言表述被混淆，增加了推理的复杂性。
随机化版本：任务中的某些元素（如语法和表达）被随机化，进一步测试模型的通用性和处理复杂语言的能力。

不同的提示模式：

零样本模式（Zero-shot prompting）：模型在没有任何示例的情况下，根据问题描述直接生成答案。这种测试模式考察模型的推理和规划能力。
单样本模式（One-shot prompting）：模型会根据提供的一个示例，尝试生成解决方案，这更适合评估模型在获得提示后学习的能力。

规划与推理：PlanBench 专注于测试模型的规划能力，即如何根据当前状态制定一系列步骤来达成目标。相比传统语言任务，规划任务需要模型具备更高层次的推理能力。
动态评估：PlanBench 是一个可扩展的测试平台，开发人员可以根据新的模型和问题集扩展任务范围，确保基准测试能够持续反映出模型的能力。

具体任务类型：

Blocksworld 任务：

Blocksworld 是 PlanBench 中的一个经典问题集，要求模型根据积木的初始状态生成将积木堆叠到目标状态的计划。
这些任务的难度随着积木数量的增加而上升，任务的步数可以从2步增加到多达16步。
通过这个任务，研究人员评估了模型的规划精度、效率以及在不同问题规模上的表现。

Mystery Blocksworld 任务：

这是对经典 Blocksworld 的变体，通过混淆语义结构，增加了问题的复杂性。这种测试设计用来评估模型在复杂语言环境下的适应性。
Mystery Blocksworld 对模型提出了更高的挑战，因为模型需要理解经过混淆的任务描述，并从中提取有用的信息来完成任务。

随机化混淆任务：

随机化任务进一步增加了任务难度，要求模型应对完全未知的表述方式。研究人员通过使用随机字符串或新语法混淆任务来评估模型的泛化能力。

无解任务：

PlanBench 还包含一些“无解”的问题，目的是测试模型是否能够正确识别任务中不存在可行的解决方案。这类任务在许多实际应用中非常重要，因为模型不仅需要生成可行计划，还需要判断哪些任务没有解。

评价指标：

准确性：模型完成任务的正确率。准确性指标用来衡量模型是否能够根据任务的描述生成正确的解决方案。
推理时间：完成每个任务所需的时间，尤其是在复杂任务中的时间消耗。这个指标用来评估模型的效率。
成本：模型在推理过程中使用的计算资源及其费用，尤其是在较复杂任务中的成本。例如，像 OpenAI 的 o1 模型，其推理成本较高。
健壮性：模型在不同复杂性和变异度的任务（如混淆任务和随机化任务）中的表现一致性。

评估结果

评估模型

评估涵盖了多个模型，包括：

Claude 3.5 (Sonnet)
Claude 3 (Opus)
GPT-4（不同版本，包括GPT-4o和GPT-4 Turbo）
LLaMA系列模型（LLaMA 3.1和LLaMA 3）
Gemini模型
o1 模型（o1 -preview和o1 -mini）

这些模型在PlanBench的600个经典积木问题（Blocksworld）和Mystery Blocksworld问题上进行了评估。

主要测试任务

模型被评估的核心任务是Blocksworld，其中模型需要解决三到五块积木的堆叠和移动问题。此外，还进行了更具挑战性的Mystery Blocksworld测试，即语法被模糊处理但语义相同的问题，以测试模型的更高推理能力。

测试结果

**传统 LLMs（如 GPT 系列）**在规划任务上的表现相对较差，尤其是在需要复杂推理的任务中。比如在Blocksworld测试中，虽然模型可以通过自然语言提示解决一些简单的规划问题，但表现普遍不稳定，尤其在更复杂的Mystery Blocksworld（一种经过混淆的版本）中，表现非常糟糕。
例如，GPT-4 和其他模型在 Blocksworld 测试中的表现仅为 28% 至 59% 的准确率，而在 Mystery Blocksworld 测试中，几乎所有 LLM 模型的准确率都不到 5%。
o1 模型在 Blocksworld 基准测试中表现优异，达到了97.8%的准确率，这是现有模型中的最高表现，明显优于其他 LLMs。
在Mystery Blocksworld这种混淆版本的测试中，o1 模型也取得了52.8%的准确率，大幅超越其他模型。然而，虽然这个表现有所提升，但仍然远未达到令人满意的水平。
在更复杂的测试中，比如Randomized Mystery Blocksworld，o1 模型的准确率则进一步下降，仅为37.3%。

Blocksworld测试结果

在标准的Blocksworld问题上，o1 模型显著优于其他LLMs，尤其是在**零样本推理（Zero-shot）和单样本推理（One-shot）**场景中。详细结果如下：

o1 -preview模型在600个Blocksworld问题中的准确率为97.8%，这是所有模型中的最高表现。
Claude 3.5和Claude 3的准确率分别为54.8%和59.3%。
LLaMA 3.1 405B模型的准确率为62.6%，是LLMs中表现最好的。
GPT-4的表现中规中矩，准确率为34.6%，而GPT-4 Turbo为40.1%。
其他模型，如Gemini 1.5 Pro和Gemini 1 Pro的表现则明显较差。

Mystery Blocksworld测试结果

Mystery Blocksworld问题增加了额外的难度，因为问题语法被刻意模糊处理。这使得大多数模型在这个测试中的表现远低于在标准Blocksworld中的表现。

o1 -preview模型的准确率为52.8%，虽然显著高于其他模型，但相比于标准Blocksworld问题有明显下降。
Claude 3.5和Claude 3的表现分别为54.8%和59.3%。
GPT-4和其他模型在Mystery Blocksworld上的表现则普遍较差，准确率在8.8%至35.5%之间浮动。

更复杂问题的评估

为了进一步测试模型的推理能力，研究者评估了o1 在更大规模的Blocksworld问题上的表现，这些问题涉及更多的积木块和更长的规划步骤。

当积木块数量增加到6至20块时，o1-preview模型的准确率迅速下降，仅为23.63%，表现明显不如在较简单问题中的表现。

不可解问题的评估

研究者还设计了100个不可解的问题，来测试模型能否识别出问题的不可解性。

o1 -preview模型在27%的不可解问题中能够正确识别出问题不可解，但有54%的情况下，模型产生了错误的规划。
其他模型在不可解问题上的表现更加不理想，几乎所有的LLMs都无法正确判断不可解问题。

推理时间与成本

研究者还评估了模型在推理任务中的时间消耗和计算成本：

o1 -preview模型在每个实例上花费了大约40秒，而在Mystery Blocksworld问题上，推理时间增加到83秒。相比之下，经典的规划算法（如Fast Downward）能够以接近零成本和每个实例0.265秒的时间解决问题。
经济成本方面：尽管 o1 模型在某些任务上具有较高的准确性，但其推理过程非常耗时且昂贵。例如，每 100 个实例的推理成本高达42.12 美元，远高于传统 LLM 模型的推理成本。
研究者在短期内对o1 模型的评估花费了**$1897.55美元**，这使得该模型的实际应用变得昂贵且不具备可持续性。

OpenAI 的 o1 模型的详细表现

1.Blocksworld 测试：

Blocksworld是一个经典的规划问题，模型需要将几个积木按照指定的顺序进行堆叠。任务的难度由积木的数量和步骤复杂性决定。

表现：在 600 个标准 Blocksworld 测试实例中，o1 模型的准确率达到了97.8%，这是所有模型中的最高值。
测试设置：测试包括两种模式：

零样本模式（Zero-Shot）：无需示例，模型直接根据任务指令生成答案。
单样本模式（One-Shot）：提供一个示例，模型根据此示例生成答案。

对比：相比于其他 LLM 模型，如 GPT-4 和 LLaMA，o1 模型的表现远超其他竞争对手。例如，LLaMA 3.1 在相同任务中的准确率为62.6%。

2.Mystery Blocksworld 测试（经过混淆的 Blocksworld）：

Mystery Blocksworld 是 Blocksworld 的混淆版本，语义相同但语法复杂，旨在测试模型在更复杂语言下的推理能力。

表现：在 600 个混淆任务中，o1 模型的准确率为52.8%，这比其他 LLM 模型显著更好。例如，GPT-4 在该测试中的表现只有35.5%。
挑战：尽管 o1 在此类测试中的表现较好，但与标准 Blocksworld 相比，性能仍然下降了近 50%。这表明，o1 在面对复杂问题时仍然面临一定的挑战。

3.Randomized Mystery Blocksworld 测试（随机混淆版本）：

这一测试版本进一步复杂化了问题，通过随机字符串和全新语法混淆问题，进一步考验模型的推理和适应能力。

表现：o1 模型的准确率进一步下降至37.3%，仍然优于其他模型，但表现不如在标准版本中的表现强劲。
结论：这种随机化混淆对模型的影响更大，表明即使是高级模型在处理非结构化或高度复杂的推理任务时，仍然会遇到显著挑战。

4.较长的规划任务：

为了进一步测试 o1 模型在处理较长步骤规划任务中的表现，研究者还设计了较大的 Blocksworld 任务（包含 6 至 20 块积木，需要 20 到 40 个步骤来完成计划）。

表现：o1 模型在这些复杂任务中的准确率下降至23.63%，且大部分正确的结果仅出现在需要少于 28 步的任务中。
结论：尽管 o1 模型在较简单的规划任务中表现优异，但在处理较长和更复杂的任务时，其表现大幅下降，表明模型在推理任务中的健壮性仍然有限。

5.无解任务的表现：

模型识别无解问题（即某些规划问题没有可行的解决方案）的能力是推理能力的一个重要方面。

表现：

在标准 Blocksworld 测试中，o1 模型能够正确识别27%的无解实例，表现不够理想。
在随机混淆版本中，模型的表现更差，只正确识别了16%的无解实例，错误率显著增加。

问题：虽然模型在部分无解任务上表现有所改进，但仍有很多错误解答，即使是明显无解的问题，模型有时也会给出一个错误的解答。

6.推理时间和成本：

o1 模型的推理性能虽然优于传统 LLMs，但其推理成本相对较高。论文中对比了不同模型在推理成本上的表现。

推理成本：

o1-preview 模型的推理成本为每 100 个实例42.12 美元，远高于其他模型的成本。例如，GPT-4 的成本为0.65 美元，LLaMA 3 的成本为0.33 美元。
更小的版本 o1-mini 成本为3.69 美元，但其性能也有所下降。

推理时间：o1 模型的推理时间也相对较长，尤其是在复杂问题中，其推理时间显著增加。

7.与传统规划器的对比：

与传统规划器（如Fast Downward）相比，o1 模型虽然在准确率上有明显提升，但仍无法与传统规划器的效率和保证性相比。

Fast Downward：该传统规划算法在所有 Blocksworld 测试中表现完美，准确率为100%，且每个实例的推理时间仅为0.265 秒。
对比：相比之下，o1 模型在处理这些任务时不仅耗时更多，且成本更高，无法提供传统规划器那样的可靠性和高效性。

性能与成本的权衡

1. 性能方面

o1 模型（LRM）在 PlanBench 基准测试中的性能显著优于传统的 LLMs，尤其是在经典积木堆叠问题（Blocksworld）上的表现非常突出。例如：

o1-preview模型在 Blocksworld 问题上的准确率达到了97.8%，远超其他模型（如 LLaMA 3.1 的 62.6%）。
在 Mystery Blocksworld 中，o1-preview 的准确率为52.8%，尽管明显高于其他模型，但相比于标准 Blocksworld 问题，性能有所下降。

然而，性能并不稳定：

在面对更大规模的 Blocksworld 问题时（积木块数量为 6 到 20 个），o1 模型的准确率大幅下降，仅为23.63%。
o1 模型在识别不可解问题时表现不佳，仅有 27% 的问题被正确标记为不可解，54% 的不可解问题产生了错误的规划。

2. 成本方面

虽然 o1 模型在规划任务中的表现较好，但其高昂的计算成本和推理时间引发了对其实际应用的担忧。

推理时间

o1-preview模型在经典 Blocksworld 问题上的平均推理时间为40.43 秒，而在 Mystery Blocksworld 问题上，推理时间增至82 秒。这种推理时间明显高于其他 LLMs，也远远高于经典规划算法。
经典规划算法（如 Fast Downward）能够在0.265 秒内解决所有测试实例，效率远高于 o1 模型。

经济成本

o1 模型的推理成本相当昂贵。研究团队在短期内进行 o1 模型的实验时，累计花费了$1897.55 美元。
每处理 100 个实例，o1-preview 的成本为$42.12 美元，o1-mini 的成本为$3.69 美元。相比之下，Claude、GPT-4 等模型的成本明显较低，如 Claude 3.5 的每百个实例处理成本仅为$0.44 美元。

o1 模型的推理成本部分来源于其生成的“推理 token”，这些 token 不会直接显示给用户，但仍会被计费。模型在推理过程中生成的这些内部 token 显著增加了每次推理的成本，而用户无法控制推理 token 的数量，因此推理成本难以预测。此外，o1-mini 尽管推理成本较低，但其性能也明显不如 o1-preview。

3. 性能与成本的平衡问题

高性能 vs 高成本：o1-preview 模型在规划任务中的表现远优于其他 LLMs，特别是在解决标准 Blocksworld 问题时。然而，这种性能提升的代价是显著更高的推理时间和经济成本。
低成本 vs 低性能：传统的 LLMs 和经典的规划算法虽然成本低廉且效率更高，但它们在复杂规划任务中的表现远远不及 o1 模型。

4. 与经典规划算法的对比

研究还对比了 o1 模型和经典的规划算法（如 Fast Downward）的性能和成本：

性能：经典规划算法在 PlanBench 基准测试中的表现几乎是完美的，能够在极短时间内（0.265 秒）解决所有问题，同时提供了 100% 的准确率。
成本：经典规划算法的成本几乎为零，因为它们在个人电脑上运行时几乎不需要额外计算资源。这使得它们在处理规划问题时极具成本效益。

5. 成本效益分析

论文的评估表明，尽管 o1 模型在规划任务中的准确性大幅提升，但其高昂的推理成本使得在实际应用中的广泛部署变得不可行。特别是在需要大规模推理和多次调用的场景下，o1 模型的高成本会迅速累积，成为阻碍其广泛应用的瓶颈。

相比之下，经典规划算法以及通过结合 LLMs 的“LLM-Modulo”框架能够在更低成本和更短时间内解决类似问题。因此，对于那些需要既定准确性和可验证性解决方案的任务，o1 模型虽然表现优异，但不一定是最佳选择。

结论

根据论文中对PlanBench基准测试的详细评估，研究者得出了一系列关于当前大型语言模型（LLMs）和新型推理模型（LRMs，如 OpenAI 的 o1 模型）的结论。这些结论揭示了这些模型在推理和规划任务中的优势与局限性，以及未来研究方向的建议。

1.LLMs 在规划任务中的表现有限

大多数 LLMs在规划任务上表现不理想，尤其是在面对需要多步推理或复杂问题时。尽管一些模型（如 GPT-4）在处理自然语言提示的简单任务上表现相对较好，但其规划能力仍远未达到人工智能领域的期望。
规划问题的复杂性：LLMs 主要是通过近似检索的方式生成输出，对于涉及多步推理和计划生成的问题，现有模型仍然缺乏足够的系统性和稳健性。这种局限性尤其体现在较长步骤和混淆问题上。

2.OpenAI o1 模型的进展与局限

o1 模型作为一种新型的大规模推理模型（LRM），相比传统的 LLMs，在规划任务中的表现有显著提升，尤其在 PlanBench 的 Blocksworld 基准测试中表现优异。其在 Blocksworld 的准确率高达97.8%，远超其他 LLM 模型。
性能提升：o1 模型在特定领域的规划任务上取得了明显的进展，尤其是在经典 Blocksworld 任务中几乎接近完美。然而，这种提升并非在所有情况下都稳健。

在更复杂的任务（如Mystery Blocksworld和Randomized Mystery Blocksworld）中，o1 模型的表现虽然优于其他 LLM 模型，但其准确率下降至52.8%和37.3%，这表明模型在处理复杂语言输入和混淆任务时仍存在显著挑战。

任务长度的影响：在需要较长规划步骤的任务中，o1 模型的性能急剧下降。对于需要 20 步以上的任务，其准确率仅为23.63%。这表明，即使是推理能力较强的 o1 模型，在处理复杂多步规划问题时仍然缺乏足够的鲁棒性。

3.模型对无解问题的处理仍不成熟

无解任务是测试模型推理能力的一个关键指标，即模型是否能够识别出那些没有解决方案的问题。o1 模型虽然在某些无解问题上表现出了一定的识别能力，但其表现仍不稳定。

在标准 Blocksworld 中，o1 仅能正确识别27%的无解实例，在随机化版本中，这一数字进一步下降至16%。
错误判断：o1 模型在部分无解问题上仍然会给出错误的解决方案，即使是显然无解的任务，有时模型仍会生成不正确的计划。这种“错误自信”的现象表明模型在应对复杂推理任务时，尚未能有效处理失败案例。

4.成本与效率的权衡问题

推理成本高昂：尽管 o1 模型在规划任务上表现更好，但其推理成本也显著增加。论文中指出，o1 模型的推理成本大幅高于其他 LLMs。例如，处理 100 个实例的推理成本为42.12 美元，而 GPT-4 的成本仅为0.65 美元。这种高昂的推理成本限制了 o1 模型的广泛应用。
推理时间：o1 模型在处理复杂规划任务时，所需的时间也远高于传统规划算法。即便是最简单的任务，o1 模型的推理时间也显著长于专用规划器（如Fast Downward），而且推理结果并不能提供明确的正确性保证。

5.与传统规划器的对比

传统规划器（如 Fast Downward）以其高效性和准确性在规划任务中仍然占据优势。论文指出，Fast Downward 在所有 Blocksworld 任务中都能以接近即时的速度（每个任务 0.265 秒）给出正确答案，且提供了 100% 的准确率和正确性保证。
模型的可靠性问题：相比之下，o1 模型虽然在某些复杂任务上表现优于传统 LLMs，但其结果的正确性并没有得到充分的保证。此外，o1 模型的推理时间和成本远高于传统规划器，使其在实际应用中不具有明显优势。

6.模型的不可解释性问题

不可解释性是目前 LRM 模型（如 o1）面临的一个重大挑战。o1 模型的内部推理过程是黑箱操作，研究人员无法访问其推理轨迹或了解其决策背后的具体机制。OpenAI 明确禁止对 o1 模型的内部推理过程进行分析或反向工程。
解释性和透明度的缺乏降低了用户对这些模型的信任，尤其是在处理需要严格正确性保证的任务（如安全关键任务）时，这种不可解释性和不可控性限制了模型的应用范围。

7.未来研究方向

提高模型的鲁棒性：尽管 o1 模型在特定任务上表现优异，但其性能在复杂任务上的下降表明，未来研究需要进一步提高模型的鲁棒性和通用性，特别是在面对更复杂、非结构化和混淆语言任务时。
效率和成本优化：研究人员建议，未来模型应在保证推理能力的基础上，重点优化推理的成本和效率，以提高其实际应用的可行性。
规划能力的提升：研究表明，当前 LLMs 和 LRMs 在规划任务上的能力仍有限。未来的模型可能需要结合外部验证机制（如通过与专用规划器结合）来提高规划的准确性和可控性。

论文：https://arxiv.org/pdf/2409.13373

OpenAI 推理模型 o1 评估研究报告 准确率高达 97.8% 远超其他 LLM 模型 但成本很高