|
GPT-5.2 终于发布了! 虽然我已经以 Gemini 为主,但 GPT 的每次更新仍然受到极大的关注(包括我)。 这次到底更新了些啥? 简单来说,各项指标超越 Gemini 3 Pro,让 OpenAI 居然又重回了王座。 但,并没有形成那种“外星人降临”的碾压优势。 不过,细节里全是魔鬼。我们具体来扒一扒。 OpenAI 官方开篇定调非常高,直接说 GPT-5.2 是迄今为止功能最强大的专业知识工作模型。 啥叫专业知识工作模型? 把官方那堆技术黑话翻译一下,意思就是:它不再满足于当你的陪聊对象,它现在想做你的“脑力合伙人”。 这一次,OpenAI 显然是急了,它甚至不屑于跟你谈什么“通用智能”的梦想,而是把“搞钱”这三个字写在了脸上。 它这次的技能点,全点在了打工人的痛点上:做表(Excel)、画饼(PPT)、写代码,以及那些让人头秃的长文档。 它就是为了创造“经济价值”而生的 。 为了证明自己“值钱”,OpenAI 甚至抛弃了那些传统的 MMLU 考试分数。 他们抛出了一个听起来就充满金钱味道的新指标:GDPval。 (这名字一听就是奔着生产总值GDP去的) 可能很多人没听说过这个评测集。 这是 OpenAI 专门为了衡量“真实世界打工能力”搞出来的。 他们在 44 个核心职业(律师、市场经理、工程师等)里,找了一帮平均工龄 14 年的资深专家,出了 1320 道真实的“地狱级工作任务” 。 注意,不是做选择题。 是让你真的去改合同、写全案 PPT、优化生产线图纸。这些任务,人类专家平均要花 7 个小时才能做完 。 结果呢?经过双盲测试,GPT-5.2 在 70.9% 的情况下,干得比这些人类专家更好,或者至少打个平手 。 图:在 GDPval 中,模型尝试完成涵盖美国 GDP 贡献最大的九大行业中 44 个职业的特定知识工作这才是最恐怖的。 它的参照系不是刚毕业的大学生,而是行业专家。 也就是说,在一个有着十几年经验的采购经理面前,GPT-5.2 干出来的活儿,有七成的时候,比他干得还好。 甚至于说,GPT-5.2 Thinking 生成的电子表格和幻灯片在复杂程度和格式方面都有所提高。 说白了: 以前的 GPT 是个学霸,现在的 GPT-5.2 是个熟手。 这背后其实是一场架构级的革命。 OpenAI 官方直言不讳:这是自 GPT-5 以来,GPT 系列在智能体编程(Agentic Coding)领域跨度最大的一次飞跃。 图:在SWE-Bench Pro中(在新窗口中打开) ,给定一个代码库,模型必须生成一个补丁来解决一个实际的软件工程任务。为了证明自己不是自嗨,他们这次直接拉来了 Windsurf 和 Devin 站台。 这两位可是现在 AI 编程界的顶流。 官方直接宣布,GPT-5.2 将成为这两个工具的默认核心模型 。 这说明啥?说明这玩意儿已经经受住了最残酷的生产环境考验。 但真正让我觉得牛逼的,是背后的技术逻辑发生了质变。 以前我们为了让 AI 干点复杂的活,得搭建一套脆弱的“多智能体系统”。 就像拉了一群各怀鬼胎的实习生在开会,一个负责想,一个负责写,一个负责改,管理起来极其麻烦,还容易崩 。 而 GPT-5.2 直接解锁了一种全新的架构:单一超级智能体(Single Mega-agent)。 这就好比把那一屋子实习生全裁了,换来了一个精通 20 多种工具的全能大神 。它不仅反应更快、脑子更灵光,而且维护起来简单了 100 倍。 为了配得上“超级智能体”这个称号,OpenAI 这次给 GPT-5.2 装上了更强的配件: 1. 手更快了 以前的 AI 调用工具(比如联网搜素、画图、跑代码)总有种“卡顿感”。但官方这次特别强调:延迟大幅降低,而且工具调用能力变得极强。 这意味着什么? 意味着它在多个工具之间切换,丝滑得像是在切菜。 它不再是一个个蹦字的聊天机器人,而是一个能瞬间调起计算器、浏览器、代码解释器的“快手”。嗯? 2. 眼睛更尖了 看一眼官方放出的演示图: 它能直接看懂复杂的波浪模拟参数,甚至能精准识别电路板上的每一个元器件。 这说明它的视觉能力已经脱离了“认猫认狗”的初级阶段,开始进入工业级的精细识别了。 配合长上下文能力 ,不管是几千行的代码屎山,还是几十页的复杂电路图,它都能一口吞下,并且过目不忘。 实际上,这使得专业人士能够使用 GPT-5.2 处理长篇文档,例如报告、合同、研究论文、笔录和多文件项目,同时在数十万个词元中保持一致性和准确性。 所以,GPT-5.2 特别适合深度分析、综合和复杂的多源工作流程。 如果说 GDPval 是测它能不能干活,那 ARC-AGI 2 就是测它到底有没有脑子。 老粉都知道,ARC 评测集是 AI 圈最难啃的骨头,甚至没有之一。 它是由 Keras 之父 François Chollet 搞出来的,专门用来反死记硬背的。 比如这种题目: 以前的模型,MMLU 这种考试能拿 90 分,一碰到 ARC 这种需要“举一反三”的智力题,立马现原形,得分低得可怜。 大家猜猜上一代的 GPT-5.1 Thinking 拿了多少分? 17.6%。 但这次,GPT-5.2 干到了多少?52.9%。 兄弟们,这是 3 倍的暴涨。这不是“挤牙膏”,这是直接把牙膏管踩爆了。 为了让大家有个概念,目前市面上最强的竞品 Gemini 3 Pro 和 Claude,在这个榜单上的分数大约在 31% - 37% 之间(取决于版本)。 也就是说,OpenAI 这一次在纯智商层面,不仅甩开了对手,更是跨越了一个巨大的鸿沟。 这意味着 GPT-5.2 终于突破了那层窗户纸:它开始具备真正的通用推理能力了。 它遇到没见过的新问题,不再是去翻记忆库里的答案(因为根本没有),而是像人类一样,现场观察规律、现场推理、现场解决。 顺便提一嘴,在另一个数学竞赛 AIME 2025 里,GPT-5.2 直接拿了 100% 的满分。 这可是全美高中数学联赛。 以前我们还在讨论 AI 能不能及格,现在它已经把卷子做穿了。 相比于它能多写两行代码,我觉得这一点,才是这次更新里最硬核、最不容忽视的里程碑。 GPT-5.2 Instant、思考版和 Pro 版本今日开始推送,首先面向 Plus、Pro、Business 和 Enterprise 套餐用户。 免费版和 Go 用户将于明天获得访问权限。 GPT-5.2 在我心中,是一个极其合格,甚至有点“过于务实”的迭代。 它没有像过去那样,疯狂去卷那些虚头巴脑的考试分数,而是把所有的技能点,都死磕在了“怎么帮白领干活”这件事上。 它不跟你谈星辰大海,只跟你谈降本增效;不跟你炫耀参数,只给你看GDPval。 这个点,我觉得就很酷,非常的刚需。 虽然从“好玩”或者“科幻感”的角度来说,GPT-5.2 可能没有 Gemini 3 Pro 原生多模态带来的那种丝滑震撼。 (毕竟谷歌同步发行了 Nano Banana Pro,期待 GPT Image 早日发布) 但如果你是为了工作,为了搞钱,为了早点下班去陪家人。那 GPT-5.2 可能是目前地表最强、也是最值得你掏钱的生产力工具 。 |