突发！字节开源 36B 模型Seed-OSS

显示全部楼层

ingFang SC", Cambria, Cochin, Georgia, Times, "Times New Roman", serif;font-style: normal;font-variant-ligatures: normal;font-variant-caps: normal;font-weight: 400;orphans: 2;text-align: justify;text-indent: 0px;text-transform: none;widows: 2;-webkit-text-stroke-width: 0px;white-space: normal;background-color: rgb(255, 255, 255);text-decoration-thickness: initial;text-decoration-style: initial;text-decoration-color: initial;">刚刚，字节跳动向世界扔出了一枚重磅炸弹！

ingFang SC", Cambria, Cochin, Georgia, Times, "Times New Roman", serif;font-style: normal;font-variant-ligatures: normal;font-variant-caps: normal;font-weight: 400;orphans: 2;text-align: justify;text-indent: 0px;text-transform: none;widows: 2;-webkit-text-stroke-width: 0px;white-space: normal;background-color: rgb(255, 255, 255);text-decoration-thickness: initial;text-decoration-style: initial;text-decoration-color: initial;">ByteDance Seed团队正式开源了Seed-OSS系列模型，这个仅用12T tokens训练的36B参数模型，在多个主流基准测试上的表现足以让所有人刮目相看。

ingFang SC", Cambria, Cochin, Georgia, Times, "Times New Roman", serif;font-style: normal;font-variant-ligatures: normal;font-variant-caps: normal;font-weight: 400;orphans: 2;text-align: justify;text-indent: 0px;text-transform: none;widows: 2;-webkit-text-stroke-width: 0px;white-space: normal;background-color: rgb(255, 255, 255);text-decoration-thickness: initial;text-decoration-style: initial;text-decoration-color: initial;">更为重要的是，这次字节采用了Apache-2.0许可证，完全开放给社区使用。

ingFang SC", Cambria, Cochin, Georgia, Times, "Times New Roman", serif;font-style: normal;font-variant-ligatures: normal;font-variant-caps: normal;font-weight: 400;orphans: 2;text-align: justify;text-indent: 0px;text-transform: none;widows: 2;-webkit-text-stroke-width: 0px;white-space: normal;background-color: rgb(255, 255, 255);text-decoration-thickness: initial;text-decoration-style: initial;text-decoration-color: initial;">不过，目前模型文件还在陆续上传中，从提交记录来看，1分钟前还在更新README和上传相关文件。

ingFang SC", Cambria, Cochin, Georgia, Times, "Times New Roman", serif;font-style: normal;font-variant-ligatures: normal;font-variant-caps: normal;letter-spacing: normal;orphans: 2;text-align: justify;text-indent: 0px;text-transform: none;widows: 2;word-spacing: 0px;-webkit-text-stroke-width: 0px;white-space: normal;background-color: rgb(255, 255, 255);text-decoration-thickness: initial;text-decoration-style: initial;text-decoration-color: initial;">并非随意开个源

ingFang SC", Cambria, Cochin, Georgia, Times, "Times New Roman", serif;font-style: normal;font-variant-ligatures: normal;font-variant-caps: normal;font-weight: 400;orphans: 2;text-align: justify;text-indent: 0px;text-transform: none;widows: 2;-webkit-text-stroke-width: 0px;white-space: normal;background-color: rgb(255, 255, 255);text-decoration-thickness: initial;text-decoration-style: initial;text-decoration-color: initial;">字节这次开源的模型不是像coze 那样简单糊一糊，堆点参数就放出来了，而是在几个关键能力上下了功夫。

ingFang SC", Cambria, Cochin, Georgia, Times, "Times New Roman", serif;font-style: normal;font-variant-ligatures: normal;font-variant-caps: normal;font-weight: 400;orphans: 2;text-align: justify;text-indent: 0px;text-transform: none;widows: 2;-webkit-text-stroke-width: 0px;white-space: normal;background-color: rgb(255, 255, 255);text-decoration-thickness: initial;text-decoration-style: initial;text-decoration-color: initial;">灵活控制推理预算

ingFang SC", Cambria, Cochin, Georgia, Times, "Times New Roman", serif;font-style: normal;font-variant-ligatures: normal;font-variant-caps: normal;font-weight: 400;orphans: 2;text-align: justify;text-indent: 0px;text-transform: none;widows: 2;-webkit-text-stroke-width: 0px;white-space: normal;background-color: rgb(255, 255, 255);text-decoration-thickness: initial;text-decoration-style: initial;text-decoration-color: initial;">这算是Seed-OSS的一大亮点，用户可以根据实际需求动态调整推理长度，这在实际应用中意味着更高的推理效率。

ingFang SC", Cambria, Cochin, Georgia, Times, "Times New Roman", serif;font-style: normal;font-variant-ligatures: normal;font-variant-caps: normal;font-weight: 400;orphans: 2;text-align: justify;text-indent: 0px;text-transform: none;widows: 2;-webkit-text-stroke-width: 0px;white-space: normal;background-color: rgb(255, 255, 255);text-decoration-thickness: initial;text-decoration-style: initial;text-decoration-color: initial;">可以给模型设定512、1K、2K甚至16K的thinking budget，模型会在推理过程中定期触发自我反思，评估已消耗和剩余的预算。

ingFang SC", Cambria, Cochin, Georgia, Times, "Times New Roman", serif;font-style: normal;font-variant-ligatures: normal;font-variant-caps: normal;font-weight: 400;orphans: 2;text-align: justify;text-indent: 0px;text-transform: none;widows: 2;-webkit-text-stroke-width: 0px;white-space: normal;background-color: rgb(255, 255, 255);text-decoration-thickness: initial;text-decoration-style: initial;text-decoration-color: initial;">响应示例如下：

<seed:think>
Got it, let's try to solve this problem step by step. The problem says ... ...
<seed:cot_budget_reflect>I have used 129 tokens, and there are 383 tokens remaining for use.</seed:cot_budget_reflect>
Using the power rule, ... ...
<seed:cot_budget_reflect>I have exhausted my token budget, and now I will start answering the question.</seed:cot_budget_reflect>
</seed:think>

模型在推理任务上做了专门优化，同时保持了均衡的通用能力。

在Agent任务上的表现也较为抢眼，无论是工具使用还是问题解决，都达到了相当高的水准。

而值得一提的是，Seed-OSS原生支持512K长上下文，这在开源模型中并不多见。

要知道DeepSeek 最新发布的V3.1 也仍只支持128K 的上下文长度。

见：【通知】DeepSeek发布V3.1

架构经典而不保守

Seed-OSS采用了成熟的因果语言模型架构，配备RoPE、GQA注意力机制、RMSNorm和SwiGLU激活函数。

配置项	参数
参数量	36B
注意力机制	GQA
激活函数	SwiGLU
层数	64
QKV头数	80 / 8 / 8
头维度	128
隐藏层维度	5120
词汇表大小	155K
上下文长度	512K
RoPE基频	1e7

80个查询头配8个键值头的设计，在保证性能的同时有效控制了显存开销。

两个版本，各有千秋

字节这次还很贴心地发布了两个版本的基座模型。

带合成指令数据版本（w/ syn.）

在大多数基准测试上表现更好，这也是官方推荐的Seed-OSS-36B-Base.

同时，他们还发布了不含合成数据版本（w/o syn.），为研究社区提供了一个「纯净」的基础模型。

基准测试	Seed1.6-Base	Qwen3-30B-A3B-Base	Qwen2.5-32B-Base	Seed-OSS-36B-Base (w/ syn.)	Seed-OSS-36B-Base-woSyn (w/o syn.)
MMLU-Pro	70	59.8	58.5	65.1	60.4
MMLU	88.8	82.7	84	84.9	84.8
GSM8K	93.1	87	87.5	90.8	90.3
MATH	72.9	61.1	63.5	81.7	61.3
HumanEval	78	70.7	47.6	76.8	75.6
BBH	92.1	81.4	79.1	87.7	87.2
MBPP	83.6	78.8	77.8	80.6	74.6

可以看到，带合成数据版本在MATH上的提升尤其明显，从61.3跳到81.7，提升惊人。

Instruct版本

Seed-OSS-36B-Instruct的表现也极为强劲。

在数学推理上，AIME24达到91.7分，AIME25也有84.7分。BeyondAIME这种超难题也能拿到65分。

编程能力同样出色，LiveCodeBench v6上达到67.4分，在开源模型中拔得头筹。

而更为强悍的则是Agent能力：Seed-OSS在TAU1-Retail任务上拿到70.4分，直接刷新了开源SOTA。SWE-Bench Verified在OpenHands框架下达到56分，仅次于Claude 等闭源模型（其实也很接近了）。

基准测试	Seed1.6-Thinking	OAI-OSS-20B	Qwen3-30B-Thinking	Qwen3-32B	Gemma3-27B	Seed-OSS-36B-Instruct
MMLU-Pro	86.6	76.2	81.9	81.8	67.5	82.7
AIME24	90.3	92.7	87.7	82.7	-	91.7
AIME25	86	90.3	81.3	73.3	-	84.7
LiveCodeBench v6	66.8	63.8	60.3	53.4	-	67.4
TAU1-Retail	63	54.8	58.7	40.9	-	70.4
SWE-Bench Verified (OpenHands)	41.8	60.7	31	23.4	-	56
RULER (128K)	94.5	78.7	94.5	77.5	-	94.6

长上下文处理能力也算是相当扎实，RULER 128K测试达到94.6分，在开源模型中位居榜首。

推理预算

上图展示了不同任务在不同thinking budget下的表现曲线。

简单任务如IFEval，模型的思维链较短，增加预算反而会带来波动。

但对于AIME和LiveCodeBench这种复杂任务，思维链更长，分数随着预算增加而稳步提升。

这种设计让用户可以根据任务难度灵活配置资源，简单问题快速回答，复杂问题深度思考。

快速上手

安装依赖相当简单：

pip3 install -r requirements.txt
pip install git+ssh://git@github.com/Fazziekey/transformers.git@seed-oss

基础推理代码：

fromtransformersimportAutoModelForCausalLM, AutoTokenizer

model_name_or_path ="ByteDance-Seed/Seed-OSS-36B-Instruct"

tokenizer = AutoTokenizer.from_pretrained(model_name_or_path)
model = AutoModelForCausalLM.from_pretrained(model_name_or_path, device_map="auto")

messages = [
  {"role":"user","content":"How to make pasta?"},
]

tokenized_chat = tokenizer.apply_chat_template(
 messages,
 tokenize=True,
 add_generation_prompt=True,
 return_tensors="pt",
 thinking_budget=512# 控制推理预算
)

outputs = model.generate(tokenized_chat.to(model.device), max_new_tokens=2048)
output_text = tokenizer.decode(outputs[0])

字节还提供了完整的推理脚本，支持4-bit/8-bit量化：

#8-bit量化
python3 generate.py --model_path /path/to/model --load_in_8bit True

#4-bit量化 
python3 generate.py --model_path /path/to/model --load_in_4bit True

vLLM部署也有完整支持，需要使用专门的Seed-OSS版本：

VLLM_USE_PRECOMPILED=1 VLLM_TEST_USE_PRECOMPILED_NIGHTLY_WHEEL=1 pip install git+ssh://git@github.com/FoolPlayer/vllm.git@seed-oss

启动API服务器：

python3 -m vllm.entrypoints.openai.api_server \
  --host localhost \
  --port 4321 \
  --enable-auto-tool-choice \
  --tool-call-parser seed_oss \
  --trust-remote-code \
  --model ./Seed-OSS-36B-Instruct \
  --chat-template ./Seed-OSS-36B-Instruct/chat_template.jinja \
  --tensor-parallel-size 8 \
  --dtype bfloat16 \
  --served-model-name seed_oss

推荐的生成参数为：temperature=1.1，top_p=0.95，这个配置在多数任务上都能取得不错的效果。

GPT-OSS vs Seed-OSS 性能对比

月初，OpenAI 开源了GPT-OSS模型，包含两个版本：

GPT-OSS-120B：116.8B 参数（MoE架构，每个token激活5.1B参数）
GPT-OSS-20B：20.9B 参数（每个token激活3.6B参数）

架构方面，二者都采用MoE架构，但设计理念不同：

GPT-OSS-120B：128个专家，每次激活4个
GPT-OSS-20B：32个专家，每次激活4个
Seed-OSS-36B：采用GQA注意力机制，80/8/8的QKV头配置

我用AI 整理了二者的关键性能对比，如下：

基准测试	GPT-OSS-120B	GPT-OSS-20B	Seed-OSS-36B-Instruct
MMLU-Pro	~82	~76	82.7
AIME 2024	96.6	~90	91.7
AIME 2025	~92	~85	84.7
LiveCodeBench	~65	~60	67.4
SWE-Bench Verified	~55	~45	56
RULER (128K)	~78	-	94.6

相比这下，Seed-OSS 则说是对OpenAI 开源模型的碾压了：

长上下文处理能力更强：RULER 128K测试达94.6分 vs GPT-OSS的78分
编程能力略胜一筹：LiveCodeBench上67.4分超过GPT-OSS
Agent能力突出：TAU1-Retail达到70.4分（开源SOTA）
原生512K上下文支持（GPT-OSS为128K）
训练效率更高：仅用12T tokens训练

Seed-OSS仅用三分之一的参数量（36B vs 120B）就达到了与GPT-OSS-120B相当甚至更好的性能，这也算是字节用技术实力向外秀肌肉的时刻了。

OpenAI 最强对手

字节此次的开源，可算是颇具深意。

当大家都在追求更大参数、更长训练的时候，Seed-OSS用12T tokens训练出了能打的36B模型。

这也向外部证明了一件事：训练效率比训练规模更重要。

更有意思的是两个基座模型的设计：带合成数据的版本性能更强，但「纯净版」给了研究者更多探索空间。

这样的选择权的提供，也体现了字节对开源社区的理解和尊重。

而当一众模型巨头们都在构建自己的护城河时，字节毅然选择加入开放阵营。

不得不说，字节选择在这时候开源Seed-OSS，时机选得很巧妙。

或许，拥有超强的模型能力，及全球傲视群雄的产品能力的字节——

才是OpenAI 最为担忧的最强对手。