ingFang SC", Cambria, Cochin, Georgia, Times, "Times New Roman", serif;font-style: normal;font-variant-ligatures: normal;font-variant-caps: normal;font-weight: 400;orphans: 2;text-align: justify;text-indent: 0px;text-transform: none;widows: 2;-webkit-text-stroke-width: 0px;white-space: normal;background-color: rgb(255, 255, 255);text-decoration-thickness: initial;text-decoration-style: initial;text-decoration-color: initial;">刚刚,字节跳动向世界扔出了一枚重磅炸弹!
ingFang SC", Cambria, Cochin, Georgia, Times, "Times New Roman", serif;font-style: normal;font-variant-ligatures: normal;font-variant-caps: normal;font-weight: 400;orphans: 2;text-align: justify;text-indent: 0px;text-transform: none;widows: 2;-webkit-text-stroke-width: 0px;white-space: normal;background-color: rgb(255, 255, 255);text-decoration-thickness: initial;text-decoration-style: initial;text-decoration-color: initial;">ByteDance Seed团队正式开源了Seed-OSS系列模型,这个仅用12T tokens 训练的36B参数模型,在多个主流基准测试上的表现足以让所有人刮目相看。
ingFang SC", Cambria, Cochin, Georgia, Times, "Times New Roman", serif;font-style: normal;font-variant-ligatures: normal;font-variant-caps: normal;font-weight: 400;orphans: 2;text-align: justify;text-indent: 0px;text-transform: none;widows: 2;-webkit-text-stroke-width: 0px;white-space: normal;background-color: rgb(255, 255, 255);text-decoration-thickness: initial;text-decoration-style: initial;text-decoration-color: initial;">更为重要的是,这次字节采用了Apache-2.0许可证 ,完全开放给社区使用。
ingFang SC", Cambria, Cochin, Georgia, Times, "Times New Roman", serif;font-style: normal;font-variant-ligatures: normal;font-variant-caps: normal;font-weight: 400;orphans: 2;text-align: justify;text-indent: 0px;text-transform: none;widows: 2;-webkit-text-stroke-width: 0px;white-space: normal;background-color: rgb(255, 255, 255);text-decoration-thickness: initial;text-decoration-style: initial;text-decoration-color: initial;">不过,目前模型文件还在陆续上传中,从提交记录来看,1分钟前还在更新README和上传相关文件。 ingFang SC", Cambria, Cochin, Georgia, Times, "Times New Roman", serif;font-style: normal;font-variant-ligatures: normal;font-variant-caps: normal;letter-spacing: normal;orphans: 2;text-align: justify;text-indent: 0px;text-transform: none;widows: 2;word-spacing: 0px;-webkit-text-stroke-width: 0px;white-space: normal;background-color: rgb(255, 255, 255);text-decoration-thickness: initial;text-decoration-style: initial;text-decoration-color: initial;">并非随意开个源
ingFang SC", Cambria, Cochin, Georgia, Times, "Times New Roman", serif;font-style: normal;font-variant-ligatures: normal;font-variant-caps: normal;font-weight: 400;orphans: 2;text-align: justify;text-indent: 0px;text-transform: none;widows: 2;-webkit-text-stroke-width: 0px;white-space: normal;background-color: rgb(255, 255, 255);text-decoration-thickness: initial;text-decoration-style: initial;text-decoration-color: initial;">字节这次开源的模型不是像coze 那样简单糊一糊,堆点参数就放出来了,而是在几个关键能力上下了功夫。
ingFang SC", Cambria, Cochin, Georgia, Times, "Times New Roman", serif;font-style: normal;font-variant-ligatures: normal;font-variant-caps: normal;font-weight: 400;orphans: 2;text-align: justify;text-indent: 0px;text-transform: none;widows: 2;-webkit-text-stroke-width: 0px;white-space: normal;background-color: rgb(255, 255, 255);text-decoration-thickness: initial;text-decoration-style: initial;text-decoration-color: initial;">灵活控制推理预算
ingFang SC", Cambria, Cochin, Georgia, Times, "Times New Roman", serif;font-style: normal;font-variant-ligatures: normal;font-variant-caps: normal;font-weight: 400;orphans: 2;text-align: justify;text-indent: 0px;text-transform: none;widows: 2;-webkit-text-stroke-width: 0px;white-space: normal;background-color: rgb(255, 255, 255);text-decoration-thickness: initial;text-decoration-style: initial;text-decoration-color: initial;">这算是Seed-OSS的一大亮点,用户可以根据实际需求动态调整推理长度,这在实际应用中意味着更高的推理效率。
ingFang SC", Cambria, Cochin, Georgia, Times, "Times New Roman", serif;font-style: normal;font-variant-ligatures: normal;font-variant-caps: normal;font-weight: 400;orphans: 2;text-align: justify;text-indent: 0px;text-transform: none;widows: 2;-webkit-text-stroke-width: 0px;white-space: normal;background-color: rgb(255, 255, 255);text-decoration-thickness: initial;text-decoration-style: initial;text-decoration-color: initial;">可以给模型设定512、1K、2K甚至16K的thinking budget,模型会在推理过程中定期触发自我反思,评估已消耗和剩余的预算。
ingFang SC", Cambria, Cochin, Georgia, Times, "Times New Roman", serif;font-style: normal;font-variant-ligatures: normal;font-variant-caps: normal;font-weight: 400;orphans: 2;text-align: justify;text-indent: 0px;text-transform: none;widows: 2;-webkit-text-stroke-width: 0px;white-space: normal;background-color: rgb(255, 255, 255);text-decoration-thickness: initial;text-decoration-style: initial;text-decoration-color: initial;">响应示例如下:<seed:think> Got it, let's try to solve this problem step by step. The problem says ... ... <seed:cot_budget_reflect>I have used 129 tokens, and there are 383 tokens remaining for use.</seed:cot_budget_reflect> Using the power rule, ... ... <seed:cot_budget_reflect>I have exhausted my token budget, and now I will start answering the question.</seed:cot_budget_reflect> </seed:think>模型在推理任务上做了专门优化,同时保持了均衡的通用能力 。
在Agent任务上的表现也较为抢眼,无论是工具使用还是问题解决,都达到了相当高的水准。
而值得一提的是,Seed-OSS原生支持512K长上下文 ,这在开源模型中并不多见。
要知道DeepSeek 最新发布的V3.1 也仍只支持128K 的上下文长度。
见:【通知】DeepSeek发布V3.1
架构经典而不保守 Seed-OSS采用了成熟的因果语言模型架构,配备RoPE、GQA注意力机制、RMSNorm和SwiGLU激活函数。
参数量 注意力机制 激活函数 层数 QKV头数 头维度 隐藏层维度 词汇表大小 上下文长度 RoPE基频
80个查询头配8个键值头的设计,在保证性能的同时有效控制了显存开销。
两个版本,各有千秋 字节这次还很贴心地发布了两个版本的基座模型。
带合成指令数据版本 (w/ syn.)
在大多数基准测试上表现更好,这也是官方推荐的Seed-OSS-36B-Base.
同时,他们还发布了不含合成数据版本 (w/o syn.),为研究社区提供了一个「纯净 」的基础模型。
Seed-OSS-36B-Base (w/ syn.) Seed-OSS-36B-Base-woSyn (w/o syn.) 65.1 84.9 90.8 81.7 76.8 87.7 80.6
可以看到,带合成数据版本在MATH上的提升尤其明显,从61.3跳到81.7 ,提升惊人。
Instruct版本 Seed-OSS-36B-Instruct的表现也极为强劲。
在数学推理 上,AIME24达到91.7分,AIME25也有84.7分。BeyondAIME这种超难题也能拿到65分。
编程能力 同样出色,LiveCodeBench v6上达到67.4分,在开源模型中拔得头筹。
而更为强悍的则是Agent能力 :Seed-OSS在TAU1-Retail任务上拿到70.4分,直接刷新了开源SOTA。SWE-Bench Verified在OpenHands框架下达到56分,仅次于Claude 等闭源模型(其实也很接近了)。
82.7 92.7 90.3 67.4 70.4 SWE-Bench Verified (OpenHands) 60.7 94.6
长上下文处理能力也算是相当扎实,RULER 128K测试达到94.6分,在开源模型中位居榜首。
推理预算 上图展示了不同任务在不同thinking budget下的表现曲线。
简单任务如IFEval,模型的思维链较短,增加预算反而会带来波动。
但对于AIME和LiveCodeBench这种复杂任务,思维链更长,分数随着预算增加而稳步提升。
这种设计让用户可以根据任务难度灵活配置资源,简单问题快速回答,复杂问题深度思考 。
快速上手 安装依赖相当简单:
pip3 install -r requirements.txt pip install git+ssh://git@github.com/Fazziekey/transformers.git@seed-oss基础推理代码:
fromtransformersimportAutoModelForCausalLM, AutoTokenizer model_name_or_path ="ByteDance-Seed/Seed-OSS-36B-Instruct" tokenizer = AutoTokenizer.from_pretrained(model_name_or_path) model = AutoModelForCausalLM.from_pretrained(model_name_or_path, device_map="auto") messages = [ {"role":"user","content":"How to make pasta?"}, ] tokenized_chat = tokenizer.apply_chat_template( messages, tokenize=True, add_generation_prompt=True, return_tensors="pt", thinking_budget=512# 控制推理预算 ) outputs = model.generate(tokenized_chat.to(model.device), max_new_tokens=2048) output_text = tokenizer.decode(outputs[0])字节还提供了完整的推理脚本,支持4-bit/8-bit量化:
#8-bit量化 python3 generate.py --model_path /path/to/model --load_in_8bit True #4-bit量化 python3 generate.py --model_path /path/to/model --load_in_4bit TruevLLM部署也有完整支持,需要使用专门的Seed-OSS版本:
VLLM_USE_PRECOMPILED=1 VLLM_TEST_USE_PRECOMPILED_NIGHTLY_WHEEL=1 pip install git+ssh://git@github.com/FoolPlayer/vllm.git@seed-oss启动API服务器:
python3 -m vllm.entrypoints.openai.api_server \ --host localhost \ --port 4321 \ --enable-auto-tool-choice \ --tool-call-parser seed_oss \ --trust-remote-code \ --model ./Seed-OSS-36B-Instruct \ --chat-template ./Seed-OSS-36B-Instruct/chat_template.jinja \ --tensor-parallel-size 8 \ --dtype bfloat16 \ --served-model-name seed_oss推荐的生成参数为:temperature=1.1,top_p=0.95 ,这个配置在多数任务上都能取得不错的效果。
GPT-OSS vs Seed-OSS 性能对比 月初,OpenAI 开源了GPT-OSS 模型,包含两个版本:
GPT-OSS-120B :116.8B 参数(MoE架构,每个token激活5.1B参数)
GPT-OSS-20B :20.9B 参数(每个token激活3.6B参数)
架构方面,二者都采用MoE架构,但设计理念不同:
GPT-OSS-120B:128个专家,每次激活4个
Seed-OSS-36B:采用GQA注意力机制,80/8/8的QKV头配置
我用AI 整理了二者的关键性能对比,如下:
MMLU-Pro 82.7 AIME 2024 AIME 2025 LiveCodeBench 67.4 SWE-Bench Verified RULER (128K) 94.6
相比这下,Seed-OSS 则说是对OpenAI 开源模型的碾压了:
长上下文处理能力更强 :RULER 128K测试达94.6分 vs GPT-OSS的78分
编程能力略胜一筹 :LiveCodeBench上67.4分超过GPT-OSS
Agent能力突出 :TAU1-Retail达到70.4分(开源SOTA)
原生512K上下文 支持(GPT-OSS为128K)
Seed-OSS仅用三分之一的参数量 (36B vs 120B)就达到了与GPT-OSS-120B相当甚至更好的性能,这也算是字节用技术实力向外秀肌肉的时刻了。
OpenAI 最强对手 字节此次的开源,可算是颇具深意。
当大家都在追求更大参数、更长训练的时候,Seed-OSS用12T tokens训练出了能打的36B模型。
这也向外部证明了一件事:训练效率比训练规模更重要 。
更有意思的是两个基座模型的设计:带合成数据的版本性能更强,但「纯净版 」给了研究者更多探索空间。
这样的选择权的提供,也体现了字节对开源社区的理解和尊重。
而当一众模型巨头们都在构建自己的护城河时,字节毅然选择加入开放阵营。
不得不说,字节选择在这时候开源Seed-OSS,时机选得很巧妙。
或许,拥有超强的模型能力,及全球傲视群雄的产品能力的字节——
才是OpenAI 最为担忧的最强对手。