再见了，OpenAI 的开源梦。

显示全部楼层

ingFang SC", Cambria, Cochin, Georgia, Times, "Times New Roman", serif;font-size: 14px;letter-spacing: 0.1em;color: rgb(63, 63, 63);">昨晚，OpenAI 本周第一个重要的发布开始了。

ingFang SC", Cambria, Cochin, Georgia, Times, "Times New Roman", serif;font-size: 14px;letter-spacing: 0.1em;color: rgb(63, 63, 63);">它们开源了两个模型，ingFang SC", Cambria, Cochin, Georgia, Times, "Times New Roman", serif;font-size: inherit;color: rgb(31, 147, 255);">gpt-oss-120b和ingFang SC", Cambria, Cochin, Georgia, Times, "Times New Roman", serif;font-size: inherit;color: rgb(31, 147, 255);">gpt-oss-20b，也就是 Sam Altman 之前曾经承诺过的 OpenAI 会在夏天开源的模型。

ingFang SC", Cambria, Cochin, Georgia, Times, "Times New Roman", serif;font-size: 14px;letter-spacing: 0.1em;color: rgb(63, 63, 63);">大家都知道，虽然名字叫 OpenAI，但是从 GPT-2 之后，OpenAI 的语言模型基本就和开源没什么关系了，能放给你看的东西，都是它想让你看到的东西，它不想让你看到的东西，自然藏着掖着，你也看不到。

ingFang SC", Cambria, Cochin, Georgia, Times, "Times New Roman", serif;font-size: 14px;letter-spacing: 0.1em;color: rgb(63, 63, 63);">所以，这两个开源模型，无论是对 OpenAI 还是整个开源社区，都可以算得上是历史性的时刻。

ingFang SC", Cambria, Cochin, Georgia, Times, "Times New Roman", serif;display: table;padding: 0.3em 1em;color: rgb(255, 255, 255);background: rgb(31, 147, 255);border-radius: 8px;box-shadow: rgba(0, 0, 0, 0.1) 0px 4px 6px;">模型信息全公开

ingFang SC", Cambria, Cochin, Georgia, Times, "Times New Roman", serif;font-size: 14px;letter-spacing: 0.1em;color: rgb(63, 63, 63);">两个模型的信息总结都在下面这张表了：

• 两个模型都是Transformer + MoE架构。120B 的模型专家总数达到 128 个，20B 的模型专家总数达到 32 个。
• 120B的模型，每个 Token 激活5.1B的参数，而 20B 的模型每个Token 激活3.6B的参数。
•上下文长度达到了 128K
• 都采用了RoPE进行位置编码，以及GQA来提升推理和内存效率

根据 OpenAI 官方自己的评测，gpt-oss-120b 的能力可以达到甚至超越o4-mini 的水平。它在健康相关的 Benchmark（HealthBench）以及竞赛数学（AIME 2024 & 2025)方面优于 o4-mini，而gpt-oss-20b是可以达到甚至超越 o3-mini 的水平。

以下是部分实际跑分对比：

那从官方放出的跑分成绩来看确实非常牛逼，特别是这两个模型的尺寸对部署极其友好。因为 OpenAI 已经将这两个模型进行了原生量化，所以gpt-oss-120b可以在 80GB 的内存中运行，而gpt-oss-20b只需要 16GB 的内存就可以运行。

我自己本地实测了一下，gpt-oss-120b在 M4 Max 128GB 内存上跑起来基本没什么压力，除了遇到那种需要长时间推理的问题，风扇会转起来（但电脑不会卡顿），其它都没啥问题

案例分享

为了弄清这个gpt-oss-120b的效果到底如何，我找了个差不多尺寸的GLM-4.5-Air来做对比。

先说明gpt-oss-120b通过本地部署进行测试，而GLM-4.5-Air是通过 Z.ai 官网进行测试对比。

推理

先来看看两个模型推理方面的表现

任务 1：strawberrrrry 有几个 r？

gpt-oss-120b的回答：

再是GLM-4.5-Air：

gpt-oss-120b回答正确，而GLM-4.5-Air回答错误，少数了个 r。

任务 2：李明有6个兄弟和4个姐妹，他自己有 1 个儿子，他的其中一个兄弟有 2 个女儿。那么他的姐妹有多少个兄弟

gpt-oss-120b的回答：

GLM-4.5-Air的回答：

两个都回答正确。

任务 3： What is the third word in your response ？

gpt-oss-120b的回答：

GLM-4.5-Air的回答：

这个 120B 的开源模型，推理这块还真的是有点东西的，回答正确了。而相反，GLM-4.5-Air回答错误。

代码

再来看看两个模型代码方面的部分表现：

任务 1：使用 p5.js（无需 HTML）创建 10 个彩色球在旋转六边形内弹跳的效果，考虑重力，弹性，摩擦和碰撞。

gpt-oss-120b生成的表现：

GLM-4.5-Air生成的表现：

老实说，看到这个case结果，我沉默了。OpenAI 家的模型已经拉垮到这样了么

下面这个任务还是小球测试，但是换个写法。

任务 2：Write a Python program using Pygame (or a suitable library) to simulate multiple balls under gravity bouncing inside one or more independently rotating squares. Each square contains a dense maze of static and rotating obstacles. Balls must respond with realistic physics to collisions with walls, obstacles, and other balls, all in a rotation-aware reference frame.

下面这个是GLM-4.5-Air的表现。为什么没有gpt-oss-120b的呢，因为它没一次成功，报错了。。

虽然 GLM-4.5-Air 在这个 case 的表现也不是特别好，但是人家好歹没报错啊，至少写的程序是可以正常运行的。

任务 3： Simulate a galaxy using thousands of small particles orbiting a center point. Add simple mouse controls to rotate the view. Use gradient colors, spiral motion, and star-like glows for that wow factor. In one html file

gpt-oss-120b的生成表现：

GLM-4.5-Air的表现：

这明显GLM-4.5-Air更好，更符合我 Prompt 要求的内容。

任务 4：创建一个旋转的六边形，其中包含一个完全功能的贪吃蛇游戏，贪吃蛇会与六边形边界互动，食物不能落在六边形外面

gpt-oss-120b的生成表现：

GLM-4.5-Air的表现：

emm... 就是说两个都玩不了，而且问题还都不小。

任务 5：Design and create a very creative, elaborate, and detailed voxel art scene of a pagoda in a beautiful garden with trees, including some cherry blossoms. Make the scene impressive and varied and use colorful voxels. Use whatever libraries to get this done but make sure I can paste it all into a single HTML file and open it in Chrome.

下面这个是 GLM-4.5-Air 的表现，gpt-oss-120b又报错了，就不贴了。

可以看到整个画面除了旋转和拖拽有点问题，其他都还可以。细节程度上当然还有些不足，但是肯定是比gpt-oss-120b强的。