o1的规划能力如何？LRM是未来吗？

显示全部楼层

能够规划一系列行动以实现预期目标，长期以来被认为是智能体的核心能力之一，并自人工智能研究之初便成为其不可或缺的一部分。随着大型语言模型（LLMs）的出现，关于它们是否具备这种规划能力的问题引起了广泛关注。我们于2022年开发的可扩展基准测试PlanBench，紧随GPT-3的发布推出，至今仍是评估LLMs规划能力的重要工具。尽管自GPT-3以来涌现了大量新的私有和开源LLMs，但在该基准测试上的进展却出奇地缓慢。OpenAI声称，他们最近推出的o1（草莓）模型是专门构建和训练的，旨在突破自回归LLMs的常规限制，使其成为一种新型模型：大型推理模型（LRM）。本文以这一发展为契机，全面考察了当前LLMs和新LRMs在PlanBench上的表现。正如我们将看到的，尽管o1在该基准测试中的表现实现了量级上的飞跃，远超竞争对手，但距离完全占据这一基准还有相当距离。这一进步也引发了关于准确性、效率和可靠性的讨论，这些问题在部署此类系统前必须仔细考虑。

SOTA LLM模型在规划能力方面仍然非常糟糕！ 如下表：

在未混淆的数据集-Blocksworld中，最好的LLMs（如LLaMA 3.1 405B）达到了62.6%的准确率。
在语义相同但句法混淆的数据集-Mystery Blocksworld中，所有LLMs的表现都远远落后，没有一款模型的准确率超过5%。

OpenAI的o1模型：是为了突破传统自回归LLMs的限制而设计和训练的，属于LRMs的一种。特点：

结合了基础LLM（可能是修改版的GPT-4）。
通过RL训练系统来指导推理过程，生成、筛选和选择私有推理路径。
在预训练阶段和推理时可能使用了新的自适应推理过程。

o1评测

在PlanBenc上，o1模型在Blocksworld问题上的表现显著优于之前所有LLMs，正确回答了97.8%的问题。
然而，在Mystery Blocksworld问题上，o1的表现虽然超过所有先前的模型，但准确率也只有52.8%。

当处理更复杂问题时

o1模型的性能迅速下降。例如，在需要20到40步解决的更大Blocksworld问题上，o1的准确率仅为23.63%。

o1最厉害的一点，是宣称能够准确识别无法解决的问题，这是规划能力的一个重要方面。但是，实验结果显示，在被修改为无法解决的Blocksworld问题上，o1正确识别不可解问题的比例并不高，为27%，并且有时会错误地声称可解问题为不可解。

最后是平衡成本和效率

下表中，大型推理模型（LRMs）比大型语言模型（LLMs）的成本要高得多。

o1模型的推理成本远高于传统LLMs，这可能会影响其在实际应用中的可行性。
o1的推理过程缺乏透明度，用户无法控制推理过程中生成的“推理token”数量，这增加了成本的不可预测性。

文末，作者提到，虽然我们的主要关注点是对o1在PlanBench上的表现进行量化评估，但我们也注意到一个值得提及的o1特性：当模型给出错误答案时，有时还会附带一个富有创意但荒谬的理由，几乎让人觉得o1从“幻觉”进化到了“误导”！ 在一个案例中，模型认为一个不可解决的问题是可解决的，因为虽然目标条件没有在最终状态中出现，但在执行过程中某个时刻曾为真，因此它认为应该继续算数。在另一个案例中，模型声称on(a,c)为真，因为它在简短的括号说明中解释道，a在b上，b在c上，因此a在某种程度上位于c的上方，应该算作“在它上面”。