OpenAI开源模型一手简单实测

显示全部楼层

北京时间8月5日晚11点，OpenAI终于放出其开源模型，gpt-oss。

gpt-oss为MoE混合专家模型，包含两个版本，120B激活5.1B，以及21B激活3.6B，目前Github和Huggingface Repo均已放出，vllm、Ollama等推理框架也第一时间提供了支持。目前在HF上已经冲上了热榜第一。

本来想尝试在本地h100上部署，但是我的环境CUDA和FlashInfer始终有问题，按照官方方案尝试怎么都配不起来，好在官方提供了一个playground可以做一些简单的测试。相信这两天各种benchmark结果大家也会做出来，我就做一些toy play，并且我比较关心端侧小模型，试一试这个3.6B激活的SLM的效果。

Coding测试：愤怒的小鸟。

prompt:Write a Angry Bird-like game using python, single file, no asset needed。只测了小模型。

gpt-oss-20b，低推理预算：

能够拉弹弓射出小球，符合物理规律，可是没有小鸟和小绿猪（砖块）。

gpt-oss-20b，中推理预算：

有砖块了，但是物理运算不太对，小球射不出去。

gpt-oss-20b，高推理预算：

第一次直接失败了，在其思考过程中发现gpt-oss担心版权问题，拒绝写代码，没办法我把prompt改成了Angry Bird-like game。第二次思考过程过长，输出被截断，没有返回完整的代码，第三次才成功：

虽然依然抽象，但是物理效果是正确的，包括小球从弹弓射出，以及砖块受击后散落的效果。

化学海龟汤

让gpt不断提问，猜出我心里想的化学物质：WF6（灵感来自：https://www.bilibili.com/video/BV1fphszaE9e）

小模型完全猜不出，让gpt-oss 120b猜测，猜测11次最终成功，分子式对了，不过还是把六氟化钨说错成了四氟化钨

弱智吧测试

语料来源：

https://huggingface.co/datasets/MichiganNLP/Chumor

小模型，高等推理预算：

DLC的隐喻，gpt-oss 20b轻松理解。

谐音梗也get了。

这种逻辑幽默就很难理解了。

创意写作

最后贴上gpt-oss两个size的文言文写作对比，大家觉得怎么样呢？

随着OpenAI亲自下场，大家在端侧小模型、Agentic Model的战场也会更加激烈吧。