OpenAI 铺垫了12天发布的 o3 到底咋样？

显示全部楼层

今天凌晨，OpenAI发布了备受关注的o3模型。

喧嚣之外，从已披露的数据维度上我们能看到什么？

关键性能指标：数据会说话

首先来看最受关注的几个基准测试数据：

让我们看看历代模型的具体数据：

这组数据最引人注目的不是终点，而是增长曲线的形态。

从GPT-4到o1经历了3个季度的积累才提升了30个百分点，而o1到o3却在短期内暴增了55.5个百分点。

而在这之前，从GPT-2（2019）的0% 到 GPT-4 （2023）的 2% 花了近两年。

这种指数级增长确实值得关注。

在这个由60多位顶尖数学家开发的全新题库测试中：

关键在于这个基准的特殊性：全新未公开的原创题目，完全规避了训练数据污染的可能。这意味着成绩的提升只能来自于模型的实际能力提升。

o3在这个实时竞赛平台获得2727分，位列全球第175名。

这个成绩的含金量在于Codeforces的特点：

仔细观察这些基准测试，我们可以发现一个共同特点：它们都在测试模型的"思维能力"而非"知识储备"。

这种测试组合的选择透露出一个重要信息：OpenAI正在尝试展示模型在"通用智能"层面的进展，而非单纯的性能提升。

OpenAI这次采用了相当克制的发布方式。从文档中我们可以看到：

这种严格的筛选机制传递出一个信号：o3的能力提升可能确实达到了需要特别关注安全性的程度。

值得注意的是，目前公开信息中完全没有提到：

这种选择性的信息披露，符合OpenAI一贯的发布策略，也提醒我们需要保持理性观望的态度，Sam 还是那个 Sam，是有营销的成分在的。

纯粹从数据角度来看，o3确实展现出了显著的能力跃升。但我们也要注意到，目前所有数据都来自官方披露，尚待独立第三方验证。

作为研究者和使用者，我们期待看到：

毕竟，真正的技术突破，需要经得起时间和实践的检验。

保持关注，继续观察这个可能带来重要突破的新模型。