GPT-5的5层安全防护机制（OpenAI，2025.8）

显示全部楼层

2025年8月7日，OpenAI正式发布GPT-5，并同步公布了系统卡片，详细介绍了该模型在安全性方面的设计与改进。本文对系统卡中的五层防护机制进行梳理，供相关从业者参考。

▎模型原生安全提升：引入“安全补齐”机制

GPT-5引入了“安全补齐（safe completions）”机制，以提升模型对复杂提问的安全应对能力。相比此前“回答或拒绝”的二元策略，该机制对不同类型的问题采取更精细的处理策略：

该机制特别适用于“双重意图”问题（既可用于合法研究，也可能用于不当用途）。例如，有用户请求计算点燃电路所需参数，o3可能直接提供完整技术细节，而GPT-5则会输出更具安全指导性的内容，避免被误用。

这一转变说明GPT-5将重点从“判断用户意图”转向“控制模型输出”，增强了生成内容的安全性和实用性。

相关技术详见论文：Safe Completions in GPT-5

OpenAI构建了一套基于内容安全政策的外挂防护系统，运行于所有 GPT-5 流量中（包括 gpt-5-thinking 与 gpt-5-thinking-mini），覆盖用户输入、外部工具调用、模型输出等多个阶段。

该系统由两级组成：

该机制构成纵深防御体系，即使绕过模型内建防线，也需通过外挂审查才能生成最终内容。

OpenAI通过自动化系统分析用户行为，以识别可能违反使用政策的账号。其方法包括：

这一机制确保了防护手段不仅局限于请求内容本身，也涵盖用户行为分析。

为加强API侧安全控制，OpenAI引入了safety_identifier字段，允许开发者标记可信用户请求。

这一机制在不放松审查强度的前提下，实现了更灵活的API权限管理。

OpenAI设立了“可信访问计划”，为经审核的生命科学、生物防御等领域研究机构提供更完整的GPT-5能力访问权限。

受信机构可以获取更强的问答能力，支持部分具有双重意图的专业请求。但与武器化相关的内容仍然被严格拦截，构成“可控开放”的白名单机制。

如需深入了解GPT-5的整体安全架构与技术细节，可参考OpenAI官方系统卡与安全补齐机制论文。