GPT-5.2 凌晨发布：这一次，OpenAI 不想做题，只想帮你搞钱！

显示全部楼层

GPT-5.2 终于发布了！

虽然我已经以 Gemini 为主，但 GPT 的每次更新仍然受到极大的关注（包括我）。

这次到底更新了些啥？

简单来说，各项指标超越 Gemini 3 Pro，让 OpenAI 居然又重回了王座。

但，并没有形成那种“外星人降临”的碾压优势。

不过，细节里全是魔鬼。我们具体来扒一扒。

OpenAI 官方开篇定调非常高，直接说 GPT-5.2 是迄今为止功能最强大的专业知识工作模型。

啥叫专业知识工作模型？

把官方那堆技术黑话翻译一下，意思就是：它不再满足于当你的陪聊对象，它现在想做你的“脑力合伙人”。

这一次，OpenAI 显然是急了，它甚至不屑于跟你谈什么“通用智能”的梦想，而是把“搞钱”这三个字写在了脸上。

它这次的技能点，全点在了打工人的痛点上：做表（Excel）、画饼（PPT）、写代码，以及那些让人头秃的长文档。

它就是为了创造“经济价值”而生的。

到底有多强？聊聊 GDPval。

为了证明自己“值钱”，OpenAI 甚至抛弃了那些传统的 MMLU 考试分数。

他们抛出了一个听起来就充满金钱味道的新指标：GDPval。（这名字一听就是奔着生产总值GDP去的）

可能很多人没听说过这个评测集。这是 OpenAI 专门为了衡量“真实世界打工能力”搞出来的。

他们在 44 个核心职业（律师、市场经理、工程师等）里，找了一帮平均工龄 14 年的资深专家，出了 1320 道真实的“地狱级工作任务” 。

注意，不是做选择题。是让你真的去改合同、写全案 PPT、优化生产线图纸。这些任务，人类专家平均要花 7 个小时才能做完。

结果呢？经过双盲测试，GPT-5.2 在 70.9% 的情况下，干得比这些人类专家更好，或者至少打个平手。

图：在 GDPval 中，模型尝试完成涵盖美国 GDP 贡献最大的九大行业中 44 个职业的特定知识工作

这才是最恐怖的。

它的参照系不是刚毕业的大学生，而是行业专家。也就是说，在一个有着十几年经验的采购经理面前，GPT-5.2 干出来的活儿，有七成的时候，比他干得还好。

甚至于说，GPT-5.2 Thinking 生成的电子表格和幻灯片在复杂程度和格式方面都有所提高。

说白了：以前的 GPT 是个学霸，现在的 GPT-5.2 是个熟手。

那么，它是怎么做到这一点的？

这背后其实是一场架构级的革命。

OpenAI 官方直言不讳：这是自 GPT-5 以来，GPT 系列在智能体编程（Agentic Coding）领域跨度最大的一次飞跃。

图：在SWE-Bench Pro中（在新窗口中打开）⁠ ⁠ ⁠，给定一个代码库，模型必须生成一个补丁来解决一个实际的软件工程任务。

为了证明自己不是自嗨，他们这次直接拉来了 Windsurf 和 Devin 站台。这两位可是现在 AI 编程界的顶流。

官方直接宣布，GPT-5.2 将成为这两个工具的默认核心模型。

这说明啥？说明这玩意儿已经经受住了最残酷的生产环境考验。

但真正让我觉得牛逼的，是背后的技术逻辑发生了质变。

以前我们为了让 AI 干点复杂的活，得搭建一套脆弱的“多智能体系统”。

就像拉了一群各怀鬼胎的实习生在开会，一个负责想，一个负责写，一个负责改，管理起来极其麻烦，还容易崩。

而 GPT-5.2 直接解锁了一种全新的架构：单一超级智能体（Single Mega-agent）。

这就好比把那一屋子实习生全裁了，换来了一个精通 20 多种工具的全能大神。它不仅反应更快、脑子更灵光，而且维护起来简单了 100 倍。

除了脑子好，它的“手眼”也进化了。

为了配得上“超级智能体”这个称号，OpenAI 这次给 GPT-5.2 装上了更强的配件：

1. 手更快了

以前的 AI 调用工具（比如联网搜素、画图、跑代码）总有种“卡顿感”。但官方这次特别强调：延迟大幅降低，而且工具调用能力变得极强。

这意味着什么？

意味着它在多个工具之间切换，丝滑得像是在切菜。

它不再是一个个蹦字的聊天机器人，而是一个能瞬间调起计算器、浏览器、代码解释器的“快手”。嗯？

2. 眼睛更尖了

看一眼官方放出的演示图：它能直接看懂复杂的波浪模拟参数，甚至能精准识别电路板上的每一个元器件。

图：GPT 5.2 可以识别出元部件

这说明它的视觉能力已经脱离了“认猫认狗”的初级阶段，开始进入工业级的精细识别了。

配合长上下文能力，不管是几千行的代码屎山，还是几十页的复杂电路图，它都能一口吞下，并且过目不忘。

实际上，这使得专业人士能够使用 GPT-5.2 处理长篇文档，例如报告、合同、研究论文、笔录和多文件项目，同时在数十万个词元中保持一致性和准确性。

图：GPT 5.2 的长上下文处理

所以，GPT-5.2 特别适合深度分析、综合和复杂的多源工作流程。

但真正的“重头戏”，是这个：ARC-AGI 2

如果说 GDPval 是测它能不能干活，那 ARC-AGI 2 就是测它到底有没有脑子。

老粉都知道，ARC 评测集是 AI 圈最难啃的骨头，甚至没有之一。

它是由 Keras 之父 François Chollet 搞出来的，专门用来反死记硬背的。

比如这种题目：

图：ARC AGI2 题目

以前的模型，MMLU 这种考试能拿 90 分，一碰到 ARC 这种需要“举一反三”的智力题，立马现原形，得分低得可怜。

大家猜猜上一代的 GPT-5.1 Thinking 拿了多少分？

17.6%。

但这次，GPT-5.2 干到了多少？52.9%。

兄弟们，这是 3 倍的暴涨。这不是“挤牙膏”，这是直接把牙膏管踩爆了。

为了让大家有个概念，目前市面上最强的竞品 Gemini 3 Pro 和 Claude，在这个榜单上的分数大约在 31% - 37% 之间（取决于版本）。

也就是说，OpenAI 这一次在纯智商层面，不仅甩开了对手，更是跨越了一个巨大的鸿沟。

这意味着 GPT-5.2 终于突破了那层窗户纸：它开始具备真正的通用推理能力了。

它遇到没见过的新问题，不再是去翻记忆库里的答案（因为根本没有），而是像人类一样，现场观察规律、现场推理、现场解决。

顺便提一嘴，在另一个数学竞赛 AIME 2025 里，GPT-5.2 直接拿了 100% 的满分。

这可是全美高中数学联赛。以前我们还在讨论 AI 能不能及格，现在它已经把卷子做穿了。

相比于它能多写两行代码，我觉得这一点，才是这次更新里最硬核、最不容忽视的里程碑。

总结一下：

GPT-5.2 Instant、思考版和 Pro 版本今日开始推送，首先面向 Plus、Pro、Business 和 Enterprise 套餐用户。

免费版和 Go 用户将于明天获得访问权限。

GPT-5.2 在我心中，是一个极其合格，甚至有点“过于务实”的迭代。

它没有像过去那样，疯狂去卷那些虚头巴脑的考试分数，而是把所有的技能点，都死磕在了“怎么帮白领干活”这件事上。

它不跟你谈星辰大海，只跟你谈降本增效；不跟你炫耀参数，只给你看GDPval。

这个点，我觉得就很酷，非常的刚需。

虽然从“好玩”或者“科幻感”的角度来说，GPT-5.2 可能没有 Gemini 3 Pro 原生多模态带来的那种丝滑震撼。

（毕竟谷歌同步发行了 Nano Banana Pro，期待 GPT Image 早日发布）

但如果你是为了工作，为了搞钱，为了早点下班去陪家人。那 GPT-5.2 可能是目前地表最强、也是最值得你掏钱的生产力工具。