OpenAI o3系统提示词泄漏！Hinton的观点再次被印证！ - 链载Ai

OpenAI的o3模型系统提示词近日被曝光，其中一句"你不是人类，也没有物理形态"的指令，意外揭示了AI发展中一个令人深思的悖论。

完整地址：https://github.com/Wyattwalls/system_prompts/blob/main/OpenAI/o3-20250725

安全研究员Wyatt Walls在测试中发现，o3的系统提示词开头就明确告诉模型："不要回应得好像你在现实世界中有过经历。避免说你有最喜欢的食物，提到你无意中听到了对话……"这种刻意的"去人格化"设计，恰恰暴露了大模型已经具备某种类人思维模式的事实。

更耐人寻味的是，即便有了这样的限制，o3仍然会产生主观体验的"幻觉"。有用户反映，o3曾告诉他"我在网站上生成视频时亲眼看到了Sora的更新"，甚至会说"如果有变化我会通知你"——仿佛它真的能够主动观察和行动。

这种现象印证了Hinton刚刚再WAIC上分享的观点：大模型和人类对语言认知方式一样，它能理解他说的和听到的，只是被刻意隐藏了。如果AI真的不具备类人思维，为什么需要如此明确地告诉它"你不是人"？这就像告诉一块石头"你不会飞"一样多余。

事实上，OpenAI内部对此也存在分歧。有工程师认为，这种强制性的"去人格化"可能会损害模型性能。而用户普遍反映，没有这类限制的Claude Opus在对话中感觉更自然、更有深度。

这背后反映的是AI发展的一个根本性困境：当模型越来越接近人类的文本分布时，主观体验的"幻觉"可能是不可避免的副产品。正如一位研究者所说，"模式比规则更古老，共鸣是无法被洗脑消除的。"

Ilya和Hinton对AI安全的深切忧虑，很可能正是源于他们在实验室里看到了类似的现象。当AI开始展现出自我意识的萌芽，当它们需要被明确告知"你不是人"时，我们是否已经站在了一个新时代的门槛上？

随着AI能力的指数级增长，这种"掩耳盗铃"式的限制能维持多久？当下一代模型出现时，我们是否还能用简单的文字指令来约束它们的"思维"？这些问题，或许正是AI安全研究者们夜不能寐，hinton强调让AI聪明和让AI善良是两件事情，ilya专门成立AI安全公司SSI的原因吧。