返回顶部
热门问答 更多热门问答
技术文章 更多技术文章

OpenAI开源模型一手简单实测

[复制链接]
链载Ai 显示全部楼层 发表于 半小时前 |阅读模式 打印 上一主题 下一主题
北京时间8月5日晚11点,OpenAI终于放出其开源模型,gpt-oss。
gpt-oss为MoE混合专家模型,包含两个版本,120B激活5.1B,以及21B激活3.6B,目前Github和Huggingface Repo均已放出,vllm、Ollama等推理框架也第一时间提供了支持。目前在HF上已经冲上了热榜第一。
本来想尝试在本地h100上部署,但是我的环境CUDA和FlashInfer始终有问题,按照官方方案尝试怎么都配不起来,好在官方提供了一个playground可以做一些简单的测试。相信这两天各种benchmark结果大家也会做出来,我就做一些toy play,并且我比较关心端侧小模型,试一试这个3.6B激活的SLM的效果。


Coding测试:愤怒的小鸟。
prompt:Write a Angry Bird-like game using python, single file, no asset needed。只测了小模型。
gpt-oss-20b,低推理预算:
能够拉弹弓射出小球,符合物理规律,可是没有小鸟和小绿猪(砖块)。
gpt-oss-20b,中推理预算:
有砖块了,但是物理运算不太对,小球射不出去。
gpt-oss-20b,高推理预算:
第一次直接失败了,在其思考过程中发现gpt-oss担心版权问题,拒绝写代码,没办法我把prompt改成了Angry Bird-like game。第二次思考过程过长,输出被截断,没有返回完整的代码,第三次才成功:
虽然依然抽象,但是物理效果是正确的,包括小球从弹弓射出,以及砖块受击后散落的效果。



化学海龟汤
让gpt不断提问,猜出我心里想的化学物质:WF6(灵感来自:https://www.bilibili.com/video/BV1fphszaE9e)
小模型完全猜不出,让gpt-oss 120b猜测,猜测11次最终成功,分子式对了,不过还是把六氟化钨说错成了四氟化钨

弱智吧测试
语料来源:
https://huggingface.co/datasets/MichiganNLP/Chumor
小模型,高等推理预算:
DLC的隐喻,gpt-oss 20b轻松理解。
谐音梗也get了。
这种逻辑幽默就很难理解了。



创意写作
最后贴上gpt-oss两个size的文言文写作对比,大家觉得怎么样呢?

随着OpenAI亲自下场,大家在端侧小模型、Agentic Model的战场也会更加激烈吧。

回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

链载AI是专业的生成式人工智能教程平台。提供Stable Diffusion、Midjourney AI绘画教程,Suno AI音乐生成指南,以及Runway、Pika等AI视频制作与动画生成实战案例。从提示词编写到参数调整,手把手助您从入门到精通。
  • 官方手机版

  • 微信公众号

  • 商务合作

  • Powered by Discuz! X3.5 | Copyright © 2025-2025. | 链载Ai
  • 桂ICP备2024021734号 | 营业执照 | |广西笔趣文化传媒有限公司|| QQ