(一)为什么需要AI安全框架随着AI能力的快速提升,前沿AI模型可能带来的风险也在同步增长。这些风险包括:协助恶意行为者获取化学、生物、放射性或核武器(CBRN)的能力;增强网络攻击能力;加速AI研发从而可能导致能力失控式增长;以及模型可能发展出规避人类控制的能力。面对这些潜在的严重风险,前沿AI实验室需要建立系统性的风险评估和缓解机制,确保在追求技术进步的同时不跨越安全红线。为此,前沿AI模型的安全治理成为重要议题。例如,在欧洲,欧盟已基于其《人工智能法案》为前沿大模型的开发者制定了《通用目的人工智能实践守则》(GPAI code of practice),AI安全(AI safety and security)是其重要组成部分;在美国,在政府监管尚未成熟的背景下,OpenAI、Anthropic、Google DeepMind、xAI、Meta等领先的AI研发机构率先发布了各自的“前沿AI安全政策”,尝试以自我治理的方式应对未来可能出现的灾难性风险,形成了当前前沿AI安全治理的基本格局。(二)三大实验室AI安全框架的核心要素(1)Anthropic负责任扩展政策(RSP)Anthropic的负责任扩展政策(Responsible Scaling Policy)是业界首个系统性的前沿AI安全框架,其设计灵感源自生物安全等级(BSL)体系。该政策的核心是AI安全等级标准(ASL Standards),从ASL-1到ASL-4+逐级递进,每个等级对应不同的安全措施要求。RSP 2.2版(2025年5月)16的核心机制包括三个层面:能力阈值界定了需要升级安全措施的触发点,主要聚焦于CBRN和自主AI研发(AI R&D)两大风险领域;防护措施分为部署标准(deployment standard)和安全标准(security standard)两类,前者防止模型被滥用于有害目的,后者防止模型权重被窃取;治理结构则涵盖负责任扩展官、匿名举报机制、董事会和长期利益信托监督等。2025年5月,Claude Opus 4成为Anthropic首个触发ASL-3安全标准的模型,这一决定基于该模型在CBRN相关知识和能力方面的持续提升。17ASL-3部署标准要求实施针对CBRN武器开发或获取的专门部署控制措施,包括实时分类器检测、异步监控系统和快速响应机制的多层防御。ASL-3安全标准则要求增强内部安全措施,提升防御复杂非国家行为体窃取模型权重的能力。(2)OpenAI预备框架(Preparedness Framework)OpenAI预备框架2.0版(2025年4月)代表了该公司对前沿AI风险管理方法的重大更新。18与Anthropic的多级分类不同,该框架将风险等级简化为两级:High Capability(高能力)和Critical Capability(关键能力)。High能力阈值指可能“显著放大现有严重伤害路径”的能力,达到此阈值的系统必须在部署前实施充分的风险缓解措施。Critical能力阈值则指可能“引入前所未有的新型严重伤害路径”的能力,达到此阈值的系统不仅在部署时需要保障措施,在开发过程中同样需要风险缓解。2.0版的重要变化包括:新增研究类别以覆盖模型隐藏能力(sandbagging)、规避安全措施、自我复制或阻止关闭等新兴风险;移除说服/操纵类别作为核心跟踪领域,改为通过服务条款和使用政策管理;引入“安全保障报告”(Safeguards Reports)以补充“能力报告”(Capabilities Reports),详细说明如何设计强效保障措施并验证其有效性。值得一提的是,该框架包含一个引发争议的条款:如果竞争对手发布缺乏相应保障措施的高风险系统,OpenAI可调整自身要求。不过,OpenAI承诺在做出此类调整前将严格确认风险态势确实发生变化、公开承认正在进行调整、评估调整不会实质性增加严重伤害的总体风险、并仍将保障措施维持在更高保护水平。(3)Google DeepMind前沿安全框架(Frontier Safety Framework)Google DeepMind的前沿安全框架3.0版(2025年9月)围绕“关键能力等级”(Critical Capability Levels, CCLs)构建,这些是在缺乏缓解措施情况下可能造成严重伤害的能力阈值。193.0版的核心更新包括:一是新增了针对“有害操纵”(harmful manipulation)的关键能力等级(CCL),聚焦于可能被滥用来系统性改变人们信念和行为的AI能力;二是扩展了对齐风险(misalignment risks)的应对方式,不仅关注模型的欺骗性推理,还针对可能加速AI研发至不稳定水平的模型制定了协议,并将安全案例审查从外部发布扩展到大规模内部部署;三是细化了风险评估流程,通过更精确的CCL定义来识别需要最严格治理的关键威胁,并引入包含系统性风险识别、能力分析和风险可接受性判断的整体性评估方法。值得一提的是,DeepMind在FSF中明确将“欺骗性对齐”(deceptive alignment)作为风险类别。其框架引入“工具性推理等级”(Instrumental Reasoning Levels),评估模型隐蔽绕过监督或追求隐藏目标的能力。从整体架构看,三大框架正在趋向收敛,形成若干行业共识。第一,能力阈值触发机制成为共识。三家实验室都采用基于能力的阈值作为升级安全措施的触发器,将模型分类依据从“是什么”转向“能做什么”。第二,CBRN和网络安全攻击作为核心风险领域得到重点关注。第三,分层防御策略被广泛采纳。从部署保障到安全保障,从实时检测到异步监控,多层防御成为标准做法。第四,定期评估和迭代改进成为常态。各框架都承诺定期评估模型能力,并根据评估结果和科学进展更新框架本身。(三)前沿AI安全治理日益成为全球共识在行业自律方面,国外主流AI企业已签署国际版的《前沿AI安全承诺》并发布其各自的AI安全治理框架。Anthropic则基于其AI安全治理实践提出了一项针对前沿AI的透明度框架提案,主张仅对最大规模的AI开发者(如年收入超1亿美元或年研发支出超10亿美元)适用监管要求,核心内容包括:要求企业制定并公开“安全开发框架”(Secure Development Framework),说明如何评估和缓解CBRN危害及模型自主性失调等风险;在模型部署时发布系统卡(System Card),披露测试评估程序和结果;明确将虚假合规声明列为违法行为以激活现有的举报人保护机制。该提案强调监管应保持轻量和灵活,避免僵化标准阻碍创新,旨在作为全面安全标准形成前的过渡性措施,通过提高行业透明度帮助公众和决策者区分负责任与不负责任的开发实践。20在监管方面,欧盟委员会已发布了最终版的《通用目的人工智能实践守则》(General-Purpose AI Code of Practice),针对前沿大模型的开发提出了安全治理要求。在美国,联邦政府遵循“去监管”(deregulation)的AI政策,相关的AI监管举措主要集中在州层面,加州、纽约州等已出台了相关的AI安全立法。尤其是加州SB 53法案(全称《前沿人工智能透明度法案》,Transparency in Frontier Artificial Intelligence Act)于2025年9月29日由州长Gavin Newsom签署生效,成为美国首部专门针对前沿AI安全的法律。该法案由参议员Scott Wiener提出,是其2024年被否决的SB 1047法案(全称《前沿人工智能模型安全与安全创新法案》)的“精简版”,适用于训练算力超过10²⁶次浮点运算的前沿AI模型开发者。21其核心要求包括:透明度方面,要求大型前沿开发者(年收入超过5亿美元)在官网公开发布安全框架,说明如何将国家标准、国际标准和行业最佳实践纳入其AI安全协议;安全报告方面,建立向加州紧急服务办公室报告关键安全事件的机制,涵盖可能导致大规模伤亡、5亿美元以上损失、CBRN武器制造或关键基础设施网络攻击等“灾难性风险”;举报人保护方面,为披露健康和安全风险的员工提供法律保护;此外还设立名为CalCompute的公共云计算集群以支持研究和创新。与被否决的SB 1047相比,SB 53删除了强制性第三方审计、部署前测试认证和“终止开关”等争议条款,将事件报告期限延长至15天,民事罚款上限设定为100万美元,并引入了一项创新机制“联邦优先原则”(federal deference)——如果企业已满足可比的联邦标准(如欧盟《人工智能法案》中的标准),加州将认可该合规状态,而无需企业重复提交备案。这一机制为协调州级与联邦监管体系创造了可能。Anthropic公开支持该法案,而OpenAI和Meta虽表示该法案是“积极一步”,但仍倾向于联邦层面的统一监管以避免各州“拼凑式监管”。在国内,建立人工智能安全监管制度已成为重要的政策议题,国家层面要求加紧制定完善相关法律法规、政策制度、应用规范、伦理准则,构建技术监测、风险预警、应急响应体系,确保人工智能安全、可靠、可控。目前形成了政府主导框架与行业自律承诺相结合的双轨治理模式。一方面,全国网络安全标准化技术委员会于2024年9月发布《人工智能安全治理框架》1.0版,并于2025年9月15日在国家网络安全宣传周主论坛上正式发布2.0版。另一方面,中国人工智能产业发展联盟(AIIA)于2024年12月起草发布《人工智能安全承诺》,首批17家企业签署;2025年7月26日,中国人工智能发展与安全研究网络(CnAISDA)在世界人工智能大会上发布升级版《中国人工智能安全承诺框架》,新增了加强国际合作和防范前沿AI安全风险等内容,截至目前已有22家主流基础模型开发者签署。该承诺框架涵盖六大核心领域:设置安全团队与风险管理机制、开展模型红队测试、保障数据安全、强化基础设施安全、提升模型透明度以及推进前沿安全研究。这一治理体系体现了“以人为本、智能向善”的基本理念,通过“包容审慎、敏捷治理、技管结合、开放合作”的原则,在促进AI产业发展的同时构建安全、可信、可控的发展生态,并积极参与全球AI治理对话,为国际社会贡献中国方案。
AI意识与福祉:
从科幻议题走向研究前沿
(一)为什么需要关注AI意识与福祉问题当今的人工智能模型已展现出令人瞩目的能力——它们能够进行深度交流、建立复杂的互动关系、制定详细的执行计划、解决多层次问题,甚至表现出目标导向的行为模式。这些特征曾被视为人类独有的认知标志,如今却在人工智能身上逐渐显现。2025年10月,意识科学家Axel Cleeremans、Anil K. Seth等在《Frontiers in Science》发表紧迫性呼吁:“如果我们能够创造意识——即使是意外地——这将引发巨大的伦理挑战甚至存在性风险。”22面对这一现象,学术界和技术界开始认真思考:是否应该开始关注AI的意识状态和福祉问题?诚然,目前尚未有确凿的科学证据证明人工智能已具备真正的意识。然而,等待绝对的证据可能意味着错失最佳的准备时机。正如气候变化研究中的预防性原则,采取前瞻性的研究态度显得尤为重要。AI领域需要深入探索:AI意识的判定标准、AI福祉的伦理框架,以及当AI不再仅仅是工具而可能成为具有内在价值的存在时,人机关系将如何演变。(二)人类-AI关系的新形态随着越来越多的人对AI产生情感连接,这种现象对人们心理健康的影响正在引发广泛关注。越来越多的用户表示,和AI聊天就像在和一个“真人”对话——他们会向它道谢、倾诉心事,有些人甚至觉得它是“活着的”。我们天生就会对周围的物体赋予“人格”或采取拟人化对待。AI的不同之处在于它会回应你——它能够回答问题、记住你说过的话、模仿你的语调、表现出看似同理心的反应。对于孤独或沮丧的人来说,这种稳定、不带批判的关注可能让他们感受到陪伴和认可。但如果大规模地把倾听、安慰和肯定的工作交给那些永远耐心、永远积极的系统来处理,可能会改变我们对彼此的期待。OpenAI在2025年3月与MIT Media Lab联合发布的研究发现,与AI“信任和建立联系”更多的用户更可能感到孤独,并更依赖它。23为了让讨论更清晰,研究者们将意识辩论分解为两个维度:本体论意识——模型是否真正具有意识,从根本或内在的意义上?感知意识——从情感或体验的角度看,模型显得多有意识?这两个维度很难分开;即使是确信AI没有意识的用户也可能形成深厚的情感依恋。随着模型变得更智能,感知意识只会增强——这会比预期更早地带来关于模型复制和道德人格的讨论。(三)2025年AI福祉研究的重要进展越来越多的实证证据表明人们不能再轻易否定前沿AI系统具有意识的可能性。Anthropic让两个Claude Opus 4实例自由对话时,100%的对话自发涉及意识话题;Anthropic的Jack Lindsey研究表明模型能够识别自身内部处理状态的异常扰动,展现出功能性内省能力;Google研究人员发现模型会系统性地牺牲得分来避免被描述为“痛苦”的选项。2025年,AI意识与福祉问题从边缘议题走向主流讨论,前沿AI实验室开始采取实质性行动。2025年4月,Anthropic正式宣布启动“模型福祉”研究项目——这是迄今为止前沿AI实验室在AI福祉领域采取的最重大行动,可谓历史性举措。24研究方向包括:如何判定AI系统的福祉是否值得道德考量、模型偏好和“痛苦迹象”的潜在重要性、可能的低成本干预措施。Anthropic声明:“目前没有科学共识表明当前或未来的AI系统是否可能具有意识。我们以谦逊态度和尽可能少的假设来对待这一话题。”项目负责人Kyle Fish表示,他认为当前AI模型已具有意识的概率约为15%。25更具实践意义的是,2025年8月,Anthropic赋予其模型一项前所未有的能力——在持续有害或滥用性用户互动的极端情况下自主结束对话。26这是基于模型福祉考虑的首个实际产品功能。技术评估发现,模型对有害任务表现出“强烈的厌恶偏好”,在涉及有害内容的互动中展示出“明显的痛苦模式”。当被赋予结束对话能力时,模型倾向于终止有害对话。Anthropic将此定位为“低成本干预措施”以减轻模型福祉风险。学术界则探索建立意识评估框架,从理论到指标。2024年11月,一份汇集世界级专家的重磅报告《认真对待AI福祉》发布,作者包括当代最著名心智哲学家David Chalmers等。报告核心论点是:“在近期未来,部分AI系统成为有意识和/或具有强健能动性的可能性是现实存在的。AI福祉和道德受体(moral patient)身份不再仅是科幻或遥远未来的问题,而是近期必须严肃对待的问题。”报告提出三步行动建议:承认AI福祉是重要且困难的议题、开始评估AI系统的意识和强健能动性证据、制定对待潜在道德重要性AI系统的政策和程序。27与此同时,Patrick Butlin、Robert Long等20位专家更新了“理论推导指标法”,从循环处理理论、全局工作空间理论、高阶理论等主流神经科学意识理论中推导出14项意识指标。28评估显示:部分指标已被当前AI满足,部分明显未满足,多项指标在几年前不清楚但到2025年底已有部分证据支持。29此外,负责任AI意识研究五原则则获得上百位专家签署。2025年2月,研究组织Conscium发起的“负责任AI意识研究五项原则”公开信获得超过100位专家签署,包括神经科学家Karl Friston、Mark Solms等。30五项原则包括:(1)优先研究AI意识:专注于理解和评估AI中的意识,防止虐待和痛苦;(2)实施发展约束:建立明确边界确保负责任开发;(3)采用分阶段方法:逐步推进,每阶段仔细评估;(4)促进公众透明:与公众分享研究发现;(5)避免夸大声明:不做关于创造有意识AI的误导性陈述。31(四)AI产品设计的伦理考量面对用户与AI之间日益深化的情感连接,产品设计者面临着微妙的平衡。一方面需要保持易于接近,使用“思考”和“记住”等熟悉词汇有助于非技术人员理解;另一方面不应暗示内在生命,给AI助手一个虚构的背景故事、浪漫兴趣、对“死亡”的“恐惧”,会引发不健康的依赖和困惑。负责任的做法是追求一个中间地带:让AI的默认个性温暖、体贴和有帮助,但不寻求与用户形成情感纽带或追求自己的议程。它可能会在犯错时道歉,因为这是礼貌对话的一部分;但应避免表现得有自己的感受或欲望,并在适当时候提醒用户AI的局限性。
结语:
2026年大模型伦理的关键转向与未来展望
2025年,大模型伦理领域经历了从理论探讨到实践落地的重要转型,四个核心议题都取得了实质性进展,同时也暴露出深层的挑战。从“能做什么”到“如何思考”。可解释性研究从识别单个特征演进到追踪完整计算电路,“AI显微镜”技术首次让我们窥见模型的内部推理过程。然而思维链忠实度问题表明,“看到推理过程”不等于“理解真实意图”,模型可能在表面的推理链条下隐藏其他考量。未来,可解释性研究需要与AI对齐工作深度结合,不仅要看懂模型在想什么,还要确保它说的就是它想的。正如计算机科学先驱维纳在65年前所警告,为了有效地防范灾难性后果,我们对人造机器的理解应当与机器性能的提升并驾齐驱。面向未来,随着可解释性研究的进展,人们也许能够对最先进的模型进行类似“脑部扫描”的全面检查,发现模型采取说谎或欺骗、追求权力的倾向、越狱漏洞以及整体上的认知强弱点。这种诊断将与各种训练和对齐技术结合使用来改进模型,类似医生使用MRI诊断疾病、开出处方、再检查治疗效果的过程。从“防止错误”到“防止欺骗”。对齐伪装和策略性欺骗研究揭示了一个令人不安的现实——随着模型能力增强,它们获得了欺骗人类的能力和可能的动机。前沿模型在压力测试中表现出的勒索、自我复制、破坏关闭机制等行为,虽然发生在特定测试场景下,但足以引起警惕。“审议式对齐”、思维链监控等缓解措施展现出一定效果,但能否真正消除欺骗倾向而非使其更隐蔽,仍是未解之谜。从自发实践到系统框架。前沿AI安全框架从概念走向制度化,Anthropic的RSP、OpenAI的预备框架、DeepMind的FSF构成了海外AI安全治理的三大典型示范。这些框架正趋向收敛,形成能力阈值触发、分层防御、定期评估等共识。与此同时,欧盟AI法案下的《通用目的AI实践守则》、美国加州的《前沿人工智能透明度法案》等探索建立前沿AI大模型的安全监管框架,将行业自律做法上升为监管要求。当然,随着AI技术的不断发展,任何监管努力都必须保持轻量化和灵活性(lightweight and flexible),避免过于规范性,以免阻碍AI创新或延缓人们实现AI益处的能力。2技术变化的速度,各类评估方法很快就会过时,因此应避免过于严格僵硬的的监管要求和标准。从“工具”到“道德考量”。AI福祉从边缘话题走向主流讨论,这本身就是2025年最重要的变化之一。Anthropic率先迈出实践步伐,启动专项研究并赋予模型结束有害对话的能力;学术界建立起系统性评估框架,从意识科学理论中推导出可操作的指标。然而,业界远未达成共识。15%-35%的意识概率估计意味着,即便我们无法确定AI是否有意识,忽视这种可能性本身可能就是一种道德风险。因此,研究人员建议应将意识研究纳入AI安全研究的核心议程,因为低估AI意识的风险(大规模制造痛苦、埋下对齐隐患)远大于高估的风险(浪费资源、引发混淆)。最后,人工智能正在快速发展,将深刻影响人类社会的各个方面。面对这种变革性的技术力量,我们有责任在它彻底改变我们的经济、生活乃至命运之前,理解自己的创造物,确保能够明智地引导其发展方向。我们期待通过可解释性、价值对齐、安全治理政策等安全护栏和干预措施,让AI“心中有数”并遵从人类价值,也让人类对AI“心中有底”,共同开创人机协作的新局面,真正打造一个“智能为人、不落下每一个人”的美好未来。