不是 GPT-5，却可能更关键的一步

显示全部楼层

会聊天的 AI，我们已经见多了。能干实事的 AI，才刚刚开始登场。

昨晚，OpenAI 一口气发布两款新模型：o3和o4-mini，没有等 GPT-5，没有开发布会，更没有宣传大模型参数。它们的重点不是“更强”，而是“更能干”。

这次更新的信号很明确：AI，不再只是回答你，而是能理解问题 → 分析路径 → 自选工具 → 自己动手。AI 正在从“陪聊型选手”，转向“动手型搭子”。

GPT-5 没来，但 OpenAI 先放出更关键的东西

原本，o3 是为 GPT-5 准备的旗舰模块。但面对开发者对“能解决问题的 AI”需求高涨，OpenAI 做了一个战略决策：不等了，单发出场。

于是我们迎来了这组“双子星”模型：

o3：面向专业场景的旗舰模型，推理能力显著增强。
o4-mini：轻量级版本，主打性价比，每百万 tokens 仅 $1.10，远低于 Claude 和 Gemini 等主流模型。

更关键的是，它们都秉持 OpenAI 近几轮的核心思路：从语言模型，向任务代理模型进化。

真·能干活的 AI，到底长什么样？

如果你想知道“动手型 AI”到底哪不一样，可以看这些新特性：

-高级推理：不再死记硬背，而是像人一样“边想边修”。通过强化学习优化后的推理路径更完整、可追溯，尤其在需要深度逻辑思维的任务上，性能相比前代 o1 有了显著提升。

-看图理解：不只是“看懂图”，而是能将图表、草图、演示稿中的信息纳入推理链路。这是 OpenAI 推理模型首次具备真正的图像参与式理解能力。

你可以上传图片，例如白板笔记、图表或模糊扫描件，模型不仅能分析、放大、旋转图像，还能基于图中信息进行推理。在一次直播演示中，o3 成功解析了一张科学研究海报，通过浏览相关文献、放大特定区域，推断出图像中未直接呈现的结论。

这类能力显著增强了 AI 在教育、科研和技术分析等场景下的实用性。

- 自动选工具：不等你下指令，它能自行决定是要浏览网页、执行代码、生成图像，还是解释文件——这是真正意义上的“任务代理”。

o3 与 o4-mini 首次具备了在 ChatGPT 中自主调用多个工具的能力，包括：网页浏览、Python 代码执行、图像处理与生成、文档解析等

? 当你交代一个复杂任务时，模型可以根据上下文自行“组装”解决路径。例如，遇到编码问题时，o3 能直接在 ChatGPT 的代码画布中编写、执行并调试 Python 脚本，大幅简化开发者的工作流程。

-编程副驾：发布了本地工具Codex CLI，直接在命令行里和你并肩写代码、调 bug、跑脚本。

-成本大幅下降，高级模型不再高不可攀：如果说 o3 面向的是高阶用户，那 o4-mini 则是一次真正的“成本革命”。

它的 API 定价仅为每百万输入 token$1.10、输出$4.40，相比 o3 的 10/40 美元，价格下降了近九成，同时也对 DeepSeek R1（0.14 / 2.19 美元）等性价比模型发起正面竞争。

从今年初的 o3-mini 起，OpenAI 就在试图“把高级推理拉下神坛”。如今的 o4-mini，正是这场策略的延续 ——让开发者和普通用户都能以低门槛接入高能力 AI。

?️Kevin点评：别再问 AI 能做什么，要看它值不值得天天用。

这些能力的本质，不是某项技术点的大爆发，而是整套系统向“任务代理协作系统”的方向迈出的一大步。

推理战争，已经开打了

眼下，各家模型都在比“谁能干更多事”，但其实本质都在卷一件事：推理能力到底能不能落地？

-DeepSeek靠 R1 拼性价比，吸开发者。

-Gemini把多模态和搜索生态打包说事。

-Meta押注开源，试图全域覆盖。

而 OpenAI 的组合打法很清晰：

一边用 o3 占领高阶场景，

一边用 o4-mini 放低门槛争取开发者和大众用户，

再搭配 Codex CLI 等工作流级工具，逐步筑起“闭环生态”。

而且官方还透露：后续将推出推理能力极强的开源模型。

?️Kevin点评：它不是不告诉你答案，而是先判断你为啥问。AI 的“人味”，从这一刻开始。

这是一次对“开源阵营”的正面宣战，也是在为整个 AI 社群重新立标杆。

类人协作，成了新阶段起点

在性能测试上，o3 和 o4-mini 也确实给出了不俗表现：

数学 / 科学类推理测试，显著优于前代 GPT-4。
GitHub 编程题准确率达70%，超越 Claude 3.7。
ARC-AGI 测试得分高达87.5%，超过人类平均水平。

但更值得注意的是，它们的“行为模式”也发生了结构性变化。

OpenAI 引入了新的“审慎对齐（Cautious Alignment）”机制——模型不再简单“拒绝回答”，而是会评估你的意图，判断是否协助。更像一个“理性判断的同事”，而不是“机械的客服”。

这固然更接近人类，但也开启了一轮新问题：模型是否会“想太多”？开放性是否变差？黑箱风险是否加剧？

现在没有标准答案，但可以确定的是——AI 的“参与感”正在增强。

最后说句现实的

不管你是程序员、教师、研究员，还是内容创作者，这波更新都值得亲测。

现在，o3 和 o4-mini 已全面开放，首次实现“强模型 + 低门槛”的双重突破。

你可以通过 ChatGPT 使用（Plus、Pro 和 Team 用户直接可选），也可以通过 API 接入开发，甚至免费用户也能有限体验 o3-mini，未来 o4-mini 也可能下放。

Kevin点评：从“高价尝鲜”到“低门槛上手”，这次模型升级真正打通了“能用”与“常用”之间的鸿沟。

比起 GPT-4 的“全能+高价”，o3 和 o4-mini 更明确地告诉你：

我能做什么、做得多好、你花多少钱。

这才是 AI 工具成为“日常搭子”的分水岭，也是一场推理竞赛的新起点。