链载Ai
标题:
OpenAI开源模型一手简单实测
[打印本页]
作者:
链载Ai
时间:
昨天 21:55
标题:
OpenAI开源模型一手简单实测
北京时间8月5日晚11点,OpenAI终于放出其开源模型,gpt-oss。
gpt-oss为MoE混合专家模型,包含两个版本,120B激活5.1B,以及21B激活3.6B,目前Github和Huggingface Repo均已放出,vllm、Ollama等推理框架也第一时间提供了支持。目前在HF上已经冲上了热榜第一。
本来想尝试在本地h100上部署,但是我的环境CUDA和FlashInfer始终有问题,按照官方方案尝试怎么都配不起来,好在官方提供了一个playground可以做一些简单的测试。相信这两天各种benchmark结果大家也会做出来,我就做一些toy play,并且我比较关心端侧小模型,试一试这个3.6B激活的SLM的效果。
Coding测试:愤怒的小鸟。
prompt:Write a Angry Bird-like game using python, single file, no asset needed。只测了小模型。
gpt-oss-20b,低推理预算:
能够拉弹弓射出小球,符合物理规律,可是没有小鸟和小绿猪(砖块)。
gpt-oss-20b,中推理预算:
有砖块了,但是物理运算不太对,小球射不出去。
gpt-oss-20b,高推理预算:
第一次直接失败了,在其思考过程中发现gpt-oss担心版权问题,拒绝写代码,没办法我把prompt改成了Angry Bird-like game。第二次思考过程过长,输出被截断,没有返回完整的代码,第三次才成功:
虽然依然抽象,但是物理效果是正确的,包括小球从弹弓射出,以及砖块受击后散落的效果。
化学海龟汤
让gpt不断提问,猜出我心里想的化学物质:WF6(灵感来自:https://www.bilibili.com/video/BV1fphszaE9e)
小模型完全猜不出,让gpt-oss 120b猜测,猜测11次最终成功,分子式对了,不过还是把六氟化钨说错成了四氟化钨
弱智吧测试
语料来源:
https://huggingface.co/datasets/MichiganNLP/Chumor
小模型,高等推理预算:
DLC的隐喻,gpt-oss 20b轻松理解。
谐音梗也get了。
这种逻辑幽默就很难理解了。
创意写作
最后贴上gpt-oss两个size的文言文写作对比,大家觉得怎么样呢?
随着OpenAI亲自下场,大家在端侧小模型、Agentic Model的战场也会更加激烈吧。
欢迎光临 链载Ai (https://www.lianzai.com/)
Powered by Discuz! X3.5