这次o3和o4-mini除了在Codeforces、SWE-bench、MMMU等关键基准测试中创造历史频频登顶之外,更值得关注的是,新模式在融合了ChatGPT的联网搜索、python环境、本地搜索、结构化数据等各种功能后,测试分数再次大幅提高,令人眼前一亮。