OpenAI o1-mini：优化成本效益的高效推理模型

显示全部楼层

我们发布了OpenAI o1-mini，一款具有成本效益的推理模型。o1-mini在STEM领域，特别是数学和编程方面表现出色——在AIME和Codeforces等评估基准上几乎匹敌OpenAI o1的表现。我们预计o1-mini将成为在需要推理而不涉及广泛世界知识的应用中更快、更具成本效益的模型。

今天，我们向Tier 5 API用户（在新窗口中打开）推出了o1-mini，其成本比OpenAI o1-preview便宜80%。ChatGPT Plus、团队、企业和教育用户可以将o1-mini作为o1-preview的替代选择，享受更高的速率限制和更低的延迟（参见模型速度）。

优化STEM推理

像o1这样的大型语言模型在预训练时使用了大量的文本数据集。虽然这些高容量模型拥有广泛的世界知识，但对于实际应用来说，它们可能会昂贵且运行速度较慢。相比之下，o1-mini是一款在预训练过程中针对STEM推理进行优化的较小模型。经过与o1相同的高计算量强化学习（RL）管道训练后，o1-mini在许多有用的推理任务上实现了与o1相当的表现，同时显著提高了成本效益。

在要求智能和推理能力的基准测试中，o1-mini与o1-preview和o1的表现相当。然而，在需要非STEM事实知识的任务上，o1-mini的表现较差（参见局限性）。

数学表现与推理成本比较

数学：在高中AIME数学竞赛中，o1-mini的得分为70.0%，与o1的74.4%具有竞争力，且成本明显更低，同时也优于o1-preview的44.6%。o1-mini的得分（约答对11/15道题）使其位列全美约前500名高中生。

编程：在Codeforces竞赛网站上，o1-mini的Elo评分为1650，接近o1的1673，并且高于o1-preview的1258。这个Elo评分将该模型排在Codeforces平台上约86%的程序员之上。o1-mini还在HumanEval编程基准测试以及高中级别的网络安全夺旗挑战赛（CTF）中表现出色。

STEM：在一些需要推理的学术基准测试中，如GPQA（科学）和MATH-500，o1-mini的表现优于GPT-4o。然而，在诸如MMLU的任务上，o1-mini表现不如GPT-4o，并且由于缺乏广泛的世界知识，o1-mini在GPQA上的表现也落后于o1-preview。

人类偏好评估：我们让人工评估员在多个领域的复杂、开放式提示下对o1-mini和GPT-4o进行比较，采用与o1-preview对比GPT-4o相同的方法。与o1-preview相似，o1-mini在需要大量推理的领域中更受青睐，但在语言集中的领域中，GPT-4o更受偏好。

模型速度

作为一个具体的例子，我们对比了GPT-4o、o1-mini和o1-preview在一个文字推理问题上的回答。虽然GPT-4o未能正确回答，但o1-mini和o1-preview都答对了，且o1-mini比o1-preview快3到5倍得出了答案。