链载Ai

标题: OpenAI 推理模型 o1 评估研究报告 准确率高达 97.8% 远超其他 LLM 模型 但成本很高 [打印本页]

作者: 链载Ai    时间: 4 小时前
标题: OpenAI 推理模型 o1 评估研究报告 准确率高达 97.8% 远超其他 LLM 模型 但成本很高

随着o1 模型的发布,OpenAI提出了一种全新的大规模推理模型(Large Reasoning Model,LRM),o1 被设计为弥补LLMs在推理和规划任务中的局限。o1 模型声称通过新的架构和训练方式,能够实现更复杂的推理能力,尤其是在链式推理(Chain-of-Thought)上具备更强的表现。

亚利桑那州立大学的研究人员基于 PlanBench 基准测试,评估了当前 LLMs 和新型 LRM( OpenAI 的 o1 模型)在规划任务中的表现。借助PlanBench基准,评估当前最先进的LLMs和新兴的LRMs在规划任务上的表现,并探讨这些模型在面对复杂推理任务时的优劣。此外,研究还探讨了LRMs的效率、准确性及在现实应用中的可行性和局限性,为未来AI模型的发展提供指导。

规划能力,这是智能体的一项核心能力,能够帮助智能体设计一系列行动来实现预期目标。规划问题一直是AI研究的重要组成部分,尤其是在自动化推理、任务执行等领域有广泛应用。

研究者为了系统评估LLMs在规划任务中的表现,开发了PlanBench,这是一个可扩展的基准测试集,专门用于测试模型在规划任务中的能力。PlanBench最初于2022年推出,主要用于测试诸如块堆积(Blocksworld)等经典规划问题。在该基准上,尽管LLMs的体量越来越大,但它们的表现并没有显著改善。

PlanBench基准

PlanBench是一套用于评估大语言模型(LLMs)和推理模型(LRMs)在规划和推理任务上表现的基准测试工具。它由亚利桑那州立大学的研究人员开发,旨在测试模型在推理任务中的表现,尤其是在规划问题上的解决能力。

PlanBench 主要特点:
  1. 广泛的任务集:PlanBench 包含多种类型的规划任务,涉及不同的领域和问题复杂度。例如:






欢迎光临 链载Ai (https://www.lianzai.com/) Powered by Discuz! X3.5