过去,我们说一个模型牛逼,是因为它代码写得好,或者知识答得准,或者考试分数高。这当然很重要,但就像我常说的,这个世界不只有程序员和科学家。还有律师、设计师、市场经理、护士、建筑师、销售……于是,OpenAI他们在美国贡献GDP最高的9个行业里,选取了44个核心职业,然后,他们找到了在这些行业里平均有14年工作经验的资深专家,让他们出了1320道专业知识任务,并且每一项,都基于真实工作成果。比如,给律师的任务,可能就是一份真实的合同草案和客户需求,让他去审阅和修改。给市场经理的任务,可能就是一堆产品资料和市场数据,让他写一份营销方案PPT。给制造工程师的任务,可能就是一张产品设计图,让他优化生产流程。这些任务,不仅有文字,还可能包含PDF、Excel表格、图片、PPT,是高度复杂的、多模态的、没有标准答案的真实工作。整套任务的平均用时,是人类专家要花 7 个小时才能做完,有些甚至是一两周的活。然后,模型和人类的成果,会被同领域的另一批专家进行盲评。评委只需要回答一个问题:你更愿意把哪份交给客户?是这份,还是这份?结果,GPT-5.2 Thinking在这套 GDPval 上,赢或打平行业专家的比例,达到了70.9%,而GPT-5.2Pro 模型是74.1%。注意,这里的参照系不是普通实习生,而是行业专家。
也就是说,在一个有着十几年经验的采购经理、或者审计师面前,GPT-5.2干出来的活儿,有七成的时候,比专家干得好,或者至少一样好。
我们过去的模型,都花过于着重的笔墨在编程开发上了,我并不是说编程开发不重要,它很重要,很牛逼。而且这次GPT-5.2,在上下文上,也有大幅的加强。用我们以前的大海捞针测试,在一个256K的巨型文档里面埋四根针,让AI来根据文档内容回答。GPT-5.2干到了离谱的100%,这也是我印象中,唯一一个能干到100%的。8根针的正确度会下降,但是这个衰减,已经比GPT-5.1牛逼太多了。牛逼的知识工作处理+最新的知识库截止日期+更棒的智力+准确性超高的上下文。这简直,就是真正的天选牛马搭子,对打工人的加持,实在是太强了。目前今天会开放给ChatGPT付费会员,明天会开放给免费会员,会直接替代GPT-5.1,但是如果你是付费会员的话,还会在老模型中存续3个月。可惜截止到我发文的凌晨6点这一刻,作为尊贵的200刀的ChatGPT Pro会员,我还是没有拿到GPT-5.2的体验资格。一些所谓的ChatGPT上的为GPT-5.2专用的文件精修,也只能等拿到实测以后,再出一篇GPT-5.2的打工合集了。最后总结,GPT-5.2在我心中,是一个合格的迭代,并没有跟很多模型一样,专注于纯粹的传统刷分,而是聚焦在了广大白领打工人身上,帮大家解决实际工作中的问题。但是从路线上来说,感觉GPT-5.2还是被原生多模态的Gemini 3 Pro压了一头,12月大概率还是要发个生图模型出来的,不知道对标Banana,会不会有新的惊喜。