返回顶部
热门问答 更多热门问答
技术文章 更多技术文章

超过Qwen,字节首次开源大模型Seed-OSS

[复制链接]
链载Ai 显示全部楼层 发表于 昨天 14:23 |阅读模式 打印 上一主题 下一主题


昨晚,字节 Seed 团队开源首个 LLM:Seed-OSS-36B。该模型具备长上下文、推理、智能体和通用能力,开发者友好,而且还主要针对国际化场景进行了优化。尽管仅用 12T 数据训练,依然在多项主流基准上表现优异,并以Apache-2.0许可证开放商用。


  • 模型地址:https://huggingface.co/collections/ByteDance-Seed/seed-oss-68a609f4201e788db05b5dcd
  • 代码:https://github.com/ByteDance-Seed/seed-oss



Seed-OSS 为Dense模型,模型参数量为36B,架构设计上采用了RoPEGQA 注意力机制RMSNormSwiGLU 激活函数,具体模型配置如下所示:



Seed-OSS-36B模型的主要特性如下:

  • 灵活控制推理预算
    :支持根据需要灵活调整推理长度,使推理过程能够动态控制,从而提升实际应用场景中的推理效率。
  • 增强的推理能力
    :在保持均衡且优异的通用能力的同时,针对推理任务进行了特别优化。
  • 智能体能力
    :在工具使用、问题解决等智能体相关任务中表现出色。
  • 研究友好
    :考虑到在预训练中引入合成指令数据可能会影响后续研究,同时发布了包含和不包含指令数据的预训练模型,为研究社区提供更多选择。
  • 原生长上下文
    :模型原生支持最长 512K 的上下文窗口。


Seed-OSS-36B一大特色是支持用户设置thinking budget参数来灵活指定模型的思考预算,和谷歌的Gemini 2.5 Flash一样。下图展示了在不同任务下,随着思考预算变化的性能曲线。对于较简单的任务(如IFEval),模型的链式思维(CoT)较短,分数在思考预算增加时会出现波动;而在更具挑战性的任务(如AIMELiveCodeBench)中,模型的 CoT 更长,分数会随着思考预算的增加而提升。



下面是一个将思考预算设置为512的示例:在推理过程中,模型会周期性地进行自我反思,以估算已消耗和剩余的预算,并在预算耗尽或推理完成时给出最终回答:

<seed:think>Gotit,let'strytosolvethisproblemstepbystep.Theproblemsays......<seed:cot_budget_reflect>Ihaveused129tokens,andthereare383tokensremainingforuse.</seed:cot_budget_reflect>Usingthepowerrule,......<seed:cot_budget_reflect>Ihaveused258tokens,andthereare254tokensremainingforuse.</seed:cot_budget_reflect>Alternatively,rememberthat......<seed:cot_budget_reflect>Ihaveused393tokens,andthereare119tokensremainingforuse.</seed:cot_budget_reflect>Becauseif......<seed:cot_budget_reflect>Ihaveexhaustedmytokenbudget,andnowIwillstartansweringthequestion.</seed:cot_budget_reflect></seed:think>Tosolvetheproblem,westartbyusingthepropertiesoflogarithmstosimplifythegivenequationsfullansweromitted).


如果未设置思维预算(默认模式),Seed-OSS 将以无限长度启动思维过程。若指定了思维预算,建议优先选择512 的整数倍(如 512、1K、2K、4K、8K 或 16K),因为模型在这些区间上经过了大量训练。当思维预算设为0时,模型会直接输出回答,这里建议将低于 512 的预算统一设为该值。


Seed-OSS-36B共包括三个模型:Seed-OSS-36B-Base、Seed-OSS-36B-Base-woSyn 和 Seed-OSS-36B-Instruct。前两个为预训练模型,其中Seed-OSS-36B-Base为在预训练中引入合成数据的版本,而Seed-OSS-36B-Base-woSyn则是不含合成数据训练的版本。


Seed-OSS-36B-Base-woSyn在主流基准测试上超过了Qwen3-30B-A3B-Base-2507和Qwen2.5-32B-Base,而加入合成数据的Seed-OSS-36B-Base在性能上有进一步的提升:



后训练版本Seed-OSS-36B-Instruct也在主流基准测试上大部分优于OpenAI的OSS-20B、阿里的Qwen3-30B-A3B-Thinking-2507和Qwen3-32B,以及谷歌的Gemma3-27B:



当前Seed-OSS 已经提了PR给transformers库,你可以安装制定的transformers库来使用这个模型:


# pip3 install -r requirements.txt# pip install git+ssh://git@github.com/Fazziekey/transformers.git@seed-oss
from transformers import AutoModelForCausalLM, AutoTokenizerimport osimport re
model_name_or_path ="ByteDance-Seed/Seed-OSS-36B-Instruct"
tokenizer = AutoTokenizer.from_pretrained(model_name_or_path)model = AutoModelForCausalLM.from_pretrained(model_name_or_path, device_map="auto") # You may want to use bfloat16 and/or move to GPU heremessages = [ {"role":"user","content":"How to make pasta?"},]tokenized_chat = tokenizer.apply_chat_template( messages, tokenize=True, add_generation_prompt=True, return_tensors="pt", thinking_budget=512# control the thinking budget)
outputs = model.generate(tokenized_chat.to(model.device), max_new_tokens=2048)
output_text = tokenizer.decode(outputs[0])


感觉Seed-OSS-36B应该只是字节加入开源大模型社区的开始,后面应该有更多的开源模型。

回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

链载AI是专业的生成式人工智能教程平台。提供Stable Diffusion、Midjourney AI绘画教程,Suno AI音乐生成指南,以及Runway、Pika等AI视频制作与动画生成实战案例。从提示词编写到参数调整,手把手助您从入门到精通。
  • 官方手机版

  • 微信公众号

  • 商务合作

  • Powered by Discuz! X3.5 | Copyright © 2025-2025. | 链载Ai
  • 桂ICP备2024021734号 | 营业执照 | |广西笔趣文化传媒有限公司|| QQ