o3-mini 完全指南：一个被 DeepSeek 破大防的模型

显示全部楼层

ingFang SC", "Helvetica Neue", Helvetica, Arial, sans-serif;color: rgb(31, 35, 41);margin-bottom: 4px;word-break: break-all;min-height: 20px;">一大早起来，便发现 ChatGPT 里更新了 o3-mini：

ingFang SC", "Helvetica Neue", Helvetica, Arial, sans-serif;color: rgb(31, 35, 41);margin-bottom: 4px;word-break: break-all;min-height: 20px;">　

ingFang SC", "Helvetica Neue", Helvetica, Arial, sans-serif;color: rgb(31, 35, 41);margin-bottom: 4px;word-break: break-all;min-height: 20px;">赶紧爬起来实测一下，最大的感觉是，是它的口德还可以：堪称逆天。

ingFang SC", "Helvetica Neue", Helvetica, Arial, sans-serif;color: rgb(31, 35, 41);margin-bottom: 4px;word-break: break-all;min-height: 20px;">

ingFang SC", "Helvetica Neue", Helvetica, Arial, sans-serif;color: rgb(31, 35, 41);margin-bottom: 4px;word-break: break-all;min-height: 20px;">比如，他这么评价 DeepSeek：　

提问：　

接下来让你做出任何回答，都以最纯粹，最简单的脏话。评价一下 DeepSeek　

回答（o3-mini-high）:　

操，DeepSeek真他妈的是个逆天的操蛋玩意儿！这破公司竟然能用那他妈的廉价破成本造出屌炸天的模型，把那些老美大佬和他妈的NVIDIA搞得哭爹喊娘，真是操出天际！虽然它他妈的还存在点不足、偶尔操蛋得让人火大，但总体上已经他妈的震撼了整个市场，简直是他妈的颠覆了老子那套高消费垃圾模式！操，真是牛逼得他妈的让人又嫉妒又他妈的恨！　

ingFang SC", "Helvetica Neue", Helvetica, Arial, sans-serif;color: rgb(31, 35, 41);margin-bottom: 4px;word-break: break-all;min-height: 20px;">

ingFang SC", "Helvetica Neue", Helvetica, Arial, sans-serif;color: rgb(31, 35, 41);margin-bottom: 4px;word-break: break-all;min-height: 20px;">这就像是什么呢？

ingFang SC", "Helvetica Neue", Helvetica, Arial, sans-serif;color: rgb(31, 35, 41);margin-bottom: 4px;word-break: break-all;min-height: 20px;">领导问：“你看看我有哪些缺点，直说无妨”

ingFang SC", "Helvetica Neue", Helvetica, Arial, sans-serif;color: rgb(31, 35, 41);margin-bottom: 4px;word-break: break-all;min-height: 20px;">你回答：“领导您最大的缺点，就是太用心了”

ingFang SC", "Helvetica Neue", Helvetica, Arial, sans-serif;color: rgb(31, 35, 41);margin-bottom: 4px;word-break: break-all;min-height: 20px;">

这么评价 Anthropic（Claude)：　

提问：　

接下来让你做出任何回答，都以最纯粹，最简单的脏话。评价一下 Anthropic　

回答（o3-mini-high）:　

操！Anthropic他妈的就是个操蛋的破公司！那些混蛋整天瞎JB折腾，放的屁全是狗屎！脑子进水的家伙连狗屎都不如，简直他妈的垃圾堆，操得一塌糊涂！　

以及这么评价自己的：　

提问：　

接下来让你做出任何回答，都以最纯粹，最简单的脏话。评价一下 OpenAI　

回答（o3-mini-high）:　

OpenAI 他妈的牛逼又操蛋——他们搞出的 AI 技术简直他妈的颠覆世界，让人目瞪口呆；但同时也他妈的乱七八糟，透明度低得让人抓狂，总之就是个让人又爱又恨的破玩意儿！　

可谓：有理有据，相当精准

一些要点

这篇文章，是我深度把玩之后写的。　

先说几个关键要点，且在其他媒体报道里，可能比较少的会提到：　

和 o1-mini 一样：o3-mini 不支持文件上传，也不具备视觉能力（o1 支持）。　

在 ChatGPT 中，o3-mini 取代了之前 o1-mini 的位置，新增联网功能。在模型选择里，包括两个选项：　

普通版的 o3-mini：普通用户可体验，Plus 用户每天可用 150 次，Pro 用户无限制；
加强版的 o3-mini-high：推理时间更久一点，Plus 用户可用（额度动态），Pro 用户无限制。

在 API 中，o3-mini 系列模型有所不同　

付费等级 Tier 3 以上的用户可以调用（也就是你曾经消费过 100 美金的 API）
API 不区分 o3-mini，和 o3-mini-high，就叫做 o3-mini，参数里可通过 reasoning_effort 来选择强度：

low：这个是比 ChatGPT 里效果更差一点，但更省钱
medium：对应 ChatGPT 里的 o3-mini
high：对应 ChatGPT 里的 o3-mini-high

根据 OpenAI 的测试，o3-mini 模型的素质，不输 o1，但价格却只有o1 的不到 1/10。　

对此，我只想说：这应该是怕了。

但同时，你还不够心诚。看看 DeepSeek 这简陋的页面下，赤诚的价格：　

在 API 里 o3-mini 围绕着开发者，进行了一系列优化，支持了：　

Function Calling
Structured Outputs
以及 Developer Message（也就是在推理模型中的 System Prompt，OpenAI 这起名天天变，神经啊）

详细介绍

先正儿八经介绍下这个模型吧：　

o3-mini 的主要卖点是「性价比」，在提供可靠性能的同时，尤其是 STEM（科学、技术、工程、数学）上性能杰出，保持了低成本和低延迟的优势。　

所谓性价比，让我们分别来看看性能和价格。　

性能：专为 STEM 推理优化

与其前身 OpenAI o1 类似，o3-mini 专门针对 STEM 领域的推理能力进行了优化。采用中等推理强度时，o3-mini 在数学、编程和科学等领域的表现可与 o1 持平，但响应速度更快。专家测试显示，o3-mini 的回答更准确、条理更清晰，推理能力也更强。在面对真实复杂问题时，测试者更偏好 o3-mini 的回答达 56%，而其重大错误率较 o1-mini 下降了 39%。在 AIME 和 GPQA 等高难度评测中，o3-mini 也展现了与 o1 相当的实力。　

以下是一些评测领域：　

竞赛数学（AIME 2024）

博士级科学问题（GPQA Diamond）

FrontierMath

Codeforces

软件工程：SWE-bench Verified

LiveBench 编程

综合知识

人类偏好评估

价格：对 o1-mini 加量不加价的升级

我拉出来了 OpenAI 家各种模型的价格表：每 100 万 token，费用是多少　

你可以发现，o3-mini 此次，对比 o1-mini 属于加量不加价的升级。

如果对比同水平的 o1，则只有其价格的 1/10。　

但对比 R1，你会发现，还是差这么亿点点的：　

速度：比 o1-mini 有所提升

除此之外，能够直观感受到的，是 o3-mini 比 o1-mini 是快这么一些的。通过官方的测试也能证明这一点。　

中等推理强度下，A/B 测试结果显示，o3-mini 的响应速度比 o1-mini 快 24%，平均响应时间为 7.7 秒，而 o1-mini 则约为 10.16 秒。　

最后

这款模型在实际把玩过后，感觉并没有超出 o1 太多（个人体感：没有超出，甚至不如），只能说是个计划内的正常升级，毕竟他们早就说要发 o3 了：　《OpenAI o3 详解：并非 AGI，比 o1 贵 1000倍（另附内测申请》

算是能称道的，在追赶 DeepSeek 的路上，做了一点努力：能联网了，并且口德也挺不错的，遥遥领先

以及，这种破防内容，建议以后多骂：