|

会聊天的 AI,我们已经见多了。能干实事的 AI,才刚刚开始登场。 昨晚,OpenAI 一口气发布两款新模型:o3和o4-mini,没有等 GPT-5,没有开发布会,更没有宣传大模型参数。它们的重点不是“更强”,而是“更能干”。 这次更新的信号很明确:AI,不再只是回答你,而是能理解问题 → 分析路径 → 自选工具 → 自己动手。AI 正在从“陪聊型选手”,转向“动手型搭子”。 GPT-5 没来,但 OpenAI 先放出更关键的东西 原本,o3 是为 GPT-5 准备的旗舰模块。但面对开发者对“能解决问题的 AI”需求高涨,OpenAI 做了一个战略决策:不等了,单发出场。 于是我们迎来了这组“双子星”模型: 更关键的是,它们都秉持 OpenAI 近几轮的核心思路:从语言模型,向任务代理模型进化。 真·能干活的 AI,到底长什么样? 如果你想知道“动手型 AI”到底哪不一样,可以看这些新特性: -高级推理:不再死记硬背,而是像人一样“边想边修”。通过强化学习优化后的推理路径更完整、可追溯,尤其在需要深度逻辑思维的任务上,性能相比前代 o1 有了显著提升。 -看图理解:不只是“看懂图”,而是能将图表、草图、演示稿中的信息纳入推理链路。这是 OpenAI 推理模型首次具备真正的图像参与式理解能力。 你可以上传图片,例如白板笔记、图表或模糊扫描件,模型不仅能分析、放大、旋转图像,还能基于图中信息进行推理。在一次直播演示中,o3 成功解析了一张科学研究海报,通过浏览相关文献、放大特定区域,推断出图像中未直接呈现的结论。 这类能力显著增强了 AI 在教育、科研和技术分析等场景下的实用性。 - 自动选工具:不等你下指令,它能自行决定是要浏览网页、执行代码、生成图像,还是解释文件——这是真正意义上的“任务代理”。 o3 与 o4-mini 首次具备了在 ChatGPT 中自主调用多个工具的能力,包括:网页浏览、Python 代码执行、图像处理与生成、文档解析等 ? 当你交代一个复杂任务时,模型可以根据上下文自行“组装”解决路径。例如,遇到编码问题时,o3 能直接在 ChatGPT 的代码画布中编写、执行并调试 Python 脚本,大幅简化开发者的工作流程。 -编程副驾:发布了本地工具Codex CLI,直接在命令行里和你并肩写代码、调 bug、跑脚本。 -成本大幅下降,高级模型不再高不可攀:如果说 o3 面向的是高阶用户,那 o4-mini 则是一次真正的“成本革命”。 它的 API 定价仅为每百万输入 token$1.10、输出$4.40,相比 o3 的 10/40 美元,价格下降了近九成,同时也对 DeepSeek R1(0.14 / 2.19 美元)等性价比模型发起正面竞争。 从今年初的 o3-mini 起,OpenAI 就在试图“把高级推理拉下神坛”。如今的 o4-mini,正是这场策略的延续 ——让开发者和普通用户都能以低门槛接入高能力 AI。 ?️Kevin点评:别再问 AI 能做什么,要看它值不值得天天用。 这些能力的本质,不是某项技术点的大爆发,而是整套系统向“任务代理协作系统”的方向迈出的一大步。 推理战争,已经开打了 眼下,各家模型都在比“谁能干更多事”,但其实本质都在卷一件事:推理能力到底能不能落地? -DeepSeek靠 R1 拼性价比,吸开发者。 -Gemini把多模态和搜索生态打包说事。 -Meta押注开源,试图全域覆盖。 而 OpenAI 的组合打法很清晰: 一边用 o3 占领高阶场景, 一边用 o4-mini 放低门槛争取开发者和大众用户, 再搭配 Codex CLI 等工作流级工具,逐步筑起“闭环生态”。 而且官方还透露:后续将推出推理能力极强的开源模型。 ?️Kevin点评:它不是不告诉你答案,而是先判断你为啥问。AI 的“人味”,从这一刻开始。 这是一次对“开源阵营”的正面宣战,也是在为整个 AI 社群重新立标杆。 类人协作,成了新阶段起点 在性能测试上,o3 和 o4-mini 也确实给出了不俗表现: 数学 / 科学类推理测试,显著优于前代 GPT-4。 GitHub 编程题准确率达70%,超越 Claude 3.7。 ARC-AGI 测试得分高达87.5%,超过人类平均水平。
但更值得注意的是,它们的“行为模式”也发生了结构性变化。 OpenAI 引入了新的“审慎对齐(Cautious Alignment)”机制——模型不再简单“拒绝回答”,而是会评估你的意图,判断是否协助。更像一个“理性判断的同事”,而不是“机械的客服”。 这固然更接近人类,但也开启了一轮新问题:模型是否会“想太多”?开放性是否变差?黑箱风险是否加剧? 现在没有标准答案,但可以确定的是——AI 的“参与感”正在增强。 最后说句现实的 不管你是程序员、教师、研究员,还是内容创作者,这波更新都值得亲测。 现在,o3 和 o4-mini 已全面开放,首次实现“强模型 + 低门槛”的双重突破。 你可以通过 ChatGPT 使用(Plus、Pro 和 Team 用户直接可选),也可以通过 API 接入开发,甚至免费用户也能有限体验 o3-mini,未来 o4-mini 也可能下放。 Kevin点评:从“高价尝鲜”到“低门槛上手”,这次模型升级真正打通了“能用”与“常用”之间的鸿沟。 比起 GPT-4 的“全能+高价”,o3 和 o4-mini 更明确地告诉你: 我能做什么、做得多好、你花多少钱。 这才是 AI 工具成为“日常搭子”的分水岭,也是一场推理竞赛的新起点。 |