返回顶部
热门问答 更多热门问答
技术文章 更多技术文章

再见了,OpenAI 的开源梦。

[复制链接]
链载Ai 显示全部楼层 发表于 昨天 21:55 |阅读模式 打印 上一主题 下一主题

ingFang SC", Cambria, Cochin, Georgia, Times, "Times New Roman", serif;font-size: 14px;letter-spacing: 0.1em;color: rgb(63, 63, 63);">昨晚,OpenAI 本周第一个重要的发布开始了。

ingFang SC", Cambria, Cochin, Georgia, Times, "Times New Roman", serif;font-size: 14px;letter-spacing: 0.1em;color: rgb(63, 63, 63);">它们开源了两个模型,ingFang SC", Cambria, Cochin, Georgia, Times, "Times New Roman", serif;font-size: inherit;color: rgb(31, 147, 255);">gpt-oss-120bingFang SC", Cambria, Cochin, Georgia, Times, "Times New Roman", serif;font-size: inherit;color: rgb(31, 147, 255);">gpt-oss-20b,也就是 Sam Altman 之前曾经承诺过的 OpenAI 会在夏天开源的模型。

ingFang SC", Cambria, Cochin, Georgia, Times, "Times New Roman", serif;font-size: 14px;letter-spacing: 0.1em;color: rgb(63, 63, 63);">大家都知道,虽然名字叫 OpenAI,但是从 GPT-2 之后,OpenAI 的语言模型基本就和开源没什么关系了,能放给你看的东西,都是它想让你看到的东西,它不想让你看到的东西,自然藏着掖着,你也看不到。

ingFang SC", Cambria, Cochin, Georgia, Times, "Times New Roman", serif;font-size: 14px;letter-spacing: 0.1em;color: rgb(63, 63, 63);">所以,这两个开源模型,无论是对 OpenAI 还是整个开源社区,都可以算得上是历史性的时刻。

ingFang SC", Cambria, Cochin, Georgia, Times, "Times New Roman", serif;display: table;padding: 0.3em 1em;color: rgb(255, 255, 255);background: rgb(31, 147, 255);border-radius: 8px;box-shadow: rgba(0, 0, 0, 0.1) 0px 4px 6px;">模型信息全公开

ingFang SC", Cambria, Cochin, Georgia, Times, "Times New Roman", serif;font-size: 14px;letter-spacing: 0.1em;color: rgb(63, 63, 63);">两个模型的信息总结都在下面这张表了:

ingFang SC", Cambria, Cochin, Georgia, Times, "Times New Roman", serif;font-size: 14px;color: rgb(63, 63, 63);">图源 OpenAI 官方介绍博客ingFang SC", Cambria, Cochin, Georgia, Times, "Times New Roman", serif;font-size: 14px;margin: 0.1em auto 0.5em;border-radius: 8px;box-shadow: rgba(0, 0, 0, 0.1) 0px 4px 8px;" title="null"/>
  • • 两个模型都是Transformer + MoE架构。120B 的模型专家总数达到 128 个,20B 的模型专家总数达到 32 个。
  • • 120B的模型,每个 Token 激活5.1B的参数,而 20B 的模型每个Token 激活3.6B的参数。
  • 上下文长度达到了 128K
  • • 都采用了RoPE进行位置编码,以及GQA来提升推理和内存效率

根据 OpenAI 官方自己的评测,gpt-oss-120b 的能力可以达到甚至超越o4-mini 的水平。它在健康相关的 Benchmark(HealthBench)以及竞赛数学(AIME 2024 & 2025)方面优于 o4-mini,而gpt-oss-20b是可以达到甚至超越 o3-mini 的水平

以下是部分实际跑分对比:

Codeforces代码竞赛
大名鼎鼎的 HLE
一些竞赛类 Benchmark

那从官方放出的跑分成绩来看确实非常牛逼,特别是这两个模型的尺寸对部署极其友好。因为 OpenAI 已经将这两个模型进行了原生量化,所以gpt-oss-120b可以在 80GB 的内存中运行,而gpt-oss-20b只需要 16GB 的内存就可以运行。

我自己本地实测了一下,gpt-oss-120b在 M4 Max 128GB 内存上跑起来基本没什么压力,除了遇到那种需要长时间推理的问题,风扇会转起来(但电脑不会卡顿),其它都没啥问题

案例分享

为了弄清这个gpt-oss-120b的效果到底如何,我找了个差不多尺寸的GLM-4.5-Air来做对比。

先说明gpt-oss-120b通过本地部署进行测试,而GLM-4.5-Air是通过 Z.ai 官网进行测试对比。

推理

先来看看两个模型推理方面的表现

任务 1:strawberrrrry 有几个 r?

gpt-oss-120b的回答:

gpt-oss-120b

再是GLM-4.5-Air

GLM-4.5-Air

gpt-oss-120b回答正确,而GLM-4.5-Air回答错误,少数了个 r。

任务 2: 李明有6个兄弟和4个姐妹,他自己有 1 个儿子,他的其中一个兄弟有 2 个女儿。那么他的姐妹有多少个兄弟

gpt-oss-120b的回答:

gpt-oss-120b

GLM-4.5-Air的回答:

GLM-4.5-Air

两个都回答正确。

任务 3: What is the third word in your response ?

gpt-oss-120b的回答:

gpt-oss-120b

GLM-4.5-Air的回答:

GLM-4.5-Air

这个 120B 的开源模型,推理这块还真的是有点东西的,回答正确了。而相反,GLM-4.5-Air回答错误。

代码

再来看看两个模型代码方面的部分表现:

任务 1: 使用 p5.js(无需 HTML)创建 10 个彩色球在旋转六边形内弹跳的效果,考虑重力,弹性,摩擦和碰撞。

gpt-oss-120b生成的表现:

gpt-oss-120b

GLM-4.5-Air生成的表现:

GLM-4.5-Air

老实说,看到这个case结果,我沉默了。OpenAI 家的模型已经拉垮到这样了么

下面这个任务还是小球测试,但是换个写法。

任务 2:Write a Python program using Pygame (or a suitable library) to simulate multiple balls under gravity bouncing inside one or more independently rotating squares. Each square contains a dense maze of static and rotating obstacles. Balls must respond with realistic physics to collisions with walls, obstacles, and other balls, all in a rotation-aware reference frame.

下面这个是GLM-4.5-Air的表现。为什么没有gpt-oss-120b的呢,因为它没一次成功,报错了。。

GLM-4.5

虽然 GLM-4.5-Air 在这个 case 的表现也不是特别好,但是人家好歹没报错啊,至少写的程序是可以正常运行的。

任务 3: Simulate a galaxy using thousands of small particles orbiting a center point. Add simple mouse controls to rotate the view. Use gradient colors, spiral motion, and star-like glows for that wow factor. In one html file

gpt-oss-120b的生成表现:

gpt-oss-120b
GLM-4.5-Air的表现:

这明显GLM-4.5-Air更好,更符合我 Prompt 要求的内容。

任务 4: 创建一个旋转的六边形,其中包含一个完全功能的贪吃蛇游戏,贪吃蛇会与六边形边界互动,食物不能落在六边形外面

gpt-oss-120b的生成表现:

gpt-oss-120b

GLM-4.5-Air的表现:

GLM-4.5-Air

emm... 就是说两个都玩不了,而且问题还都不小。

任务 5:Design and create a very creative, elaborate, and detailed voxel art scene of a pagoda in a beautiful garden with trees, including some cherry blossoms. Make the scene impressive and varied and use colorful voxels. Use whatever libraries to get this done but make sure I can paste it all into a single HTML file and open it in Chrome.

下面这个是 GLM-4.5-Air 的表现,gpt-oss-120b又报错了,就不贴了。


可以看到整个画面除了旋转和拖拽有点问题,其他都还可以。细节程度上当然还有些不足,但是肯定是比gpt-oss-120b强的。

指令遵循

最后来看看两个模型在指令遵循方面的表现吧

任务 1: 请将 “I love gpt-oss-120b” 进行倒序排列

gpt-oss-120b的表现:

gpt-oss-120b

GLM-4.5-Air的表现

GLM-4.5-Air

这里两个模型都回答正确了。

任务 2: Create a 3-paragraph text of exactly 300 words, without the letter "O" or "o", explaining how airplanes works .

gpt-oss-120b的表现:

gpt-oss-120b

GLM-4.5-Air的表现

GLM-4.5-Air

大概是这个 case 真的比较难,两个模型都没回答正确。

任务 3: 用英文写一个包含5个句子的段落来描述10年后的生活,但不能使用字母'e'

gpt-oss-120b的表现:

gpt-oss-120b

GLM-4.5-Air的表现:

GLM-4.5-Air

两个模型也都失败了。不过gpt-oss-120b相比于 GLM-4.5-Air 稍微好一点吧,但是好的有限也是。

写在最后

好啦,今天的分享就先到这儿啦~

从我个人的体验来看,开源的gpt-oss-120b还是有些惊喜吧但不对,推理能力还行,但是代码能力真的很烂,尤其是跟同参数级别的GLM-4.5-Air对比了一下。指令遵循能力基本也就属于能完成简单的 case,但是难一点的就不行了。

所以,至少我个人是没感觉出来可以达到 o4-mini 这个级别的模型应有的能力的。

OpenAI 真的,GPT-5 快点来吧。预热了这么久的开源模型这么拉跨,越来越期待 GPT-5 是什么水平了

回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

链载AI是专业的生成式人工智能教程平台。提供Stable Diffusion、Midjourney AI绘画教程,Suno AI音乐生成指南,以及Runway、Pika等AI视频制作与动画生成实战案例。从提示词编写到参数调整,手把手助您从入门到精通。
  • 官方手机版

  • 微信公众号

  • 商务合作

  • Powered by Discuz! X3.5 | Copyright © 2025-2025. | 链载Ai
  • 桂ICP备2024021734号 | 营业执照 | |广西笔趣文化传媒有限公司|| QQ