|
OpenAI 刚刚开源了两个专门用于安全分类的推理模型。 这次发布的gpt-oss-safeguard包含两个版本:120b 和 20b 参数量,都是基于 gpt-oss 开源模型微调而来。 
且采用的是 Apache 2.0 许可证,即任何人都可以自由使用、修改和部署! 告别传统分类器的束缚传统的安全分类器是怎么工作的呢? 先收集成千上万个安全和不安全内容的例子,然后训练模型从中学习区分规律。 要知道,这种方法有个致命缺陷:分类器从来没有真正「看到」过安全策略本身,它只是在猜测标注背后的逻辑。 而 gpt-oss-safeguard 完全不同: 它能直接理解开发者提供的策略文档,然后根据这个策略来分类内容。就像给了 AI 一本规则手册,它能实时查阅并作出判断。 更为便利的是,开发者可以随时修改策略,不需要重新训练模型。 游戏论坛想要识别作弊讨论? 产品评论网站要筛查虚假评论? 写个策略文档,就行了! 推理能力超越 GPT-5OpenAI 在内部评估中做了个有趣的实验:同时给模型多个策略,看它能否准确分类。 这只有在所有策略上都判断正确才算成功。 结果让人有些意外: gpt-oss-safeguard 的表现超过了 GPT-5-thinking 和基础的 gpt-oss 模型。 
要知道,gpt-oss-safeguard 的参数量可比 GPT-5 小多了,这样的「以小博大」的胜利尤其令人印象深刻。 在 2022 年的内容审核评估集上,gpt-oss-safeguard 略微领先所有测试模型,包括 OpenAI 内部的 Safety Reasoner 和 GPT-5-thinking。 在 ToxicChat 数据集上,虽然 GPT-5-thinking 和 Safety Reasoner 略占上风,但考虑到 gpt-oss-safeguard 的模型规模,它的性价比明显更高。 内部秘密武器其实,这套方法 OpenAI 自己已经用了很久。 他们内部有个叫Safety Reasoner的工具,正是 gpt-oss-safeguard 的原型。 OpenAI 透露,在最近的一些产品发布中,用于安全推理的算力占比高达 16%! 在图像生成和 Sora 2 中,Safety Reasoner 会动态评估输出,实时拦截不安全的生成内容。 在生物学和自残等敏感领域,他们先用快速的小模型进行初筛,再用 Safety Reasoner 进行详细审查。 这种「先快速过滤,再精准判断」的分层架构,已经成为 OpenAI 安全系统的核心组件,覆盖了 GPT-5 和 ChatGPT Agent 等所有系统。 开发者的新玩具Hugging Face 的 Vaibhav (VB) Srivastav (@reach_vb) 看到后,第一时间兴奋地分享: Wohoooo! 恭喜发布 🔥 Love the weights on the hub 🤗

模型已经上传到 Hugging Face,开发者可以立即下载使用。 OpenAI 还贴心地准备了详细的开发文档,教你如何编写策略提示词、选择合适的策略长度,以及如何将推理输出集成到生产环境的信任与安全系统中。 但 Mark 마크 (@Makuh90) 力挺 OpenAI: 我欣赏这种精神。坚持到底,绝不放弃。安全至上,必须面对。
与社区共建OpenAI 这次选择与 ROOST 合作,共同打磨这个开源版本。 
还共同确定了开发者的关键需求,测试了模型,并编写了开发者文档。并放出了 cookbook 解释了如何编写策略提示以最大限度地发挥 gpt-oss-safeguard 的推理能力,选择合适的策略长度进行深度分析,并将 oss-safeguard 的推理输出集成到生产信任与安全系统中。 ROOST 的 CTO Vinay Rao 评价说: gpt-oss-safeguard 是第一个采用『自带策略和危害定义』设计的开源推理模型。在我们的测试中,它在理解不同策略、解释推理过程和应用策略的细微差别方面都表现出色。
ROOST 还建立了一个模型社区,专门探索如何用开源 AI 模型保护网络空间。 这个社区将汇集安全从业者和研究人员,分享实施开源 AI 模型到安全工作流程的最佳实践。 当然,gpt-oss-safeguard 也有局限性。 对于特别复杂的风险,基于数万个高质量标注样本训练的专用分类器可能表现更好。而且推理模型需要更多计算资源和时间,这让它难以扩展到所有平台内容。 但这些,都不妨碍它成为开发者工具箱中的利器。 当你需要快速适应新出现的风险、处理高度细分的领域、或者没有足够样本训练专用分类器时,gpt-oss-safeguard 就是你的最佳选择。 |