返回顶部
热门问答 更多热门问答
技术文章 更多技术文章

OpenAI o1-mini:优化成本效益的高效推理模型

[复制链接]
链载Ai 显示全部楼层 发表于 8 小时前 |阅读模式 打印 上一主题 下一主题


我们发布了OpenAI o1-mini,一款具有成本效益的推理模型。o1-mini在STEM领域,特别是数学和编程方面表现出色——在AIME和Codeforces等评估基准上几乎匹敌OpenAI o1的表现。我们预计o1-mini将成为在需要推理而不涉及广泛世界知识的应用中更快、更具成本效益的模型。
今天,我们向Tier 5 API用户(在新窗口中打开)推出了o1-mini,其成本比OpenAI o1-preview便宜80%。ChatGPT Plus、团队、企业和教育用户可以将o1-mini作为o1-preview的替代选择,享受更高的速率限制和更低的延迟(参见模型速度)。
优化STEM推理
像o1这样的大型语言模型在预训练时使用了大量的文本数据集。虽然这些高容量模型拥有广泛的世界知识,但对于实际应用来说,它们可能会昂贵且运行速度较慢。相比之下,o1-mini是一款在预训练过程中针对STEM推理进行优化的较小模型。经过与o1相同的高计算量强化学习(RL)管道训练后,o1-mini在许多有用的推理任务上实现了与o1相当的表现,同时显著提高了成本效益。
在要求智能和推理能力的基准测试中,o1-mini与o1-preview和o1的表现相当。然而,在需要非STEM事实知识的任务上,o1-mini的表现较差(参见局限性)。
数学表现与推理成本比较

数学:在高中AIME数学竞赛中,o1-mini的得分为70.0%,与o1的74.4%具有竞争力,且成本明显更低,同时也优于o1-preview的44.6%。o1-mini的得分(约答对11/15道题)使其位列全美约前500名高中生。

编程:在Codeforces竞赛网站上,o1-mini的Elo评分为1650,接近o1的1673,并且高于o1-preview的1258。这个Elo评分将该模型排在Codeforces平台上约86%的程序员之上。o1-mini还在HumanEval编程基准测试以及高中级别的网络安全夺旗挑战赛(CTF)中表现出色。

STEM:在一些需要推理的学术基准测试中,如GPQA(科学)和MATH-500,o1-mini的表现优于GPT-4o。然而,在诸如MMLU的任务上,o1-mini表现不如GPT-4o,并且由于缺乏广泛的世界知识,o1-mini在GPQA上的表现也落后于o1-preview。

人类偏好评估:我们让人工评估员在多个领域的复杂、开放式提示下对o1-mini和GPT-4o进行比较,采用与o1-preview对比GPT-4o相同的方法。与o1-preview相似,o1-mini在需要大量推理的领域中更受青睐,但在语言集中的领域中,GPT-4o更受偏好。

模型速度
作为一个具体的例子,我们对比了GPT-4o、o1-mini和o1-preview在一个文字推理问题上的回答。虽然GPT-4o未能正确回答,但o1-mini和o1-preview都答对了,且o1-mini比o1-preview快3到5倍得出了答案。


回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

链载AI是专业的生成式人工智能教程平台。提供Stable Diffusion、Midjourney AI绘画教程,Suno AI音乐生成指南,以及Runway、Pika等AI视频制作与动画生成实战案例。从提示词编写到参数调整,手把手助您从入门到精通。
  • 官方手机版

  • 微信公众号

  • 商务合作

  • Powered by Discuz! X3.5 | Copyright © 2025-2025. | 链载Ai
  • 桂ICP备2024021734号 | 营业执照 | |广西笔趣文化传媒有限公司|| QQ