北京时间8月5日晚11点,OpenAI终于放出其开源模型,gpt-oss。gpt-oss为MoE混合专家模型,包含两个版本,120B激活5.1B,以及21B激活3.6B,目前Github和Huggingface Repo均已放出,vllm、Ollama等推理框架也第一时间提供了支持。目前在HF上已经冲上了热榜第一。本来想尝试在本地h100上部署,但是我的环境CUDA和FlashInfer始终有问题,按照官方方案尝试怎么都配不起来,好在官方提供了一个playground可以做一些简单的测试。相信这两天各种benchmark结果大家也会做出来,我就做一些toy play,并且我比较关心端侧小模型,试一试这个3.6B激活的SLM的效果。 prompt:Write a Angry Bird-like game using python, single file, no asset needed。只测了小模型。能够拉弹弓射出小球,符合物理规律,可是没有小鸟和小绿猪(砖块)。第一次直接失败了,在其思考过程中发现gpt-oss担心版权问题,拒绝写代码,没办法我把prompt改成了Angry Bird-like game。第二次思考过程过长,输出被截断,没有返回完整的代码,第三次才成功:虽然依然抽象,但是物理效果是正确的,包括小球从弹弓射出,以及砖块受击后散落的效果。 让gpt不断提问,猜出我心里想的化学物质:WF6(灵感来自:https://www.bilibili.com/video/BV1fphszaE9e)小模型完全猜不出,让gpt-oss 120b猜测,猜测11次最终成功,分子式对了,不过还是把六氟化钨说错成了四氟化钨https://huggingface.co/datasets/MichiganNLP/Chumor 最后贴上gpt-oss两个size的文言文写作对比,大家觉得怎么样呢?随着OpenAI亲自下场,大家在端侧小模型、Agentic Model的战场也会更加激烈吧。 |