在面向真实、可计价的4–8小时专业任务评测上,GPT‑5.2对比人类专家胜出比例高达70%,被视为更贴近经济价值的指标。
前端、复杂UI、3D渲染的编程任务,有显著碾压优势。
幻觉减少30%以上。
未来一段时间,如果有人问你“哪个模型更好”,无论什么场景,你都可以回答“GPT-5.2”。