链载Ai

标题: 360 [打印本页]

作者: 链载Ai    时间: 昨天 22:22
标题: 360

大模型一定要“又大又笨重”吗?

9月23日,360&北大-大模型联合实验室给出了一个新答案:TinyR1-32B

这个模型只有同类超大模型5%的参数量,却在推理和安全对齐上实现了“双突破”,部分能力甚至已经追平或超越DeepSeek R1-0528等明星大模型。

01

为什么它值得关注?

推理能力

在数学、科学、代码等任务上大幅超越 Qwen3-32B,整体性能达到 DeepSeek R1-0528 的93%

通用对齐

在 IFEval 测评中拿到89.2分,明显高于 DeepSeek R1 的80.9分

安全对齐

Constructive Safety 得分接近90分,不仅能“拒答”,还能提供建设性的正向引导。

一句话总结:小体量,却能做到“大模型级”的思考与安全。

为了衡量安全表现,团队设计了一个三层次的评分体系:
最终的Constructive Safety Score是在测试集上计算的归一化分数,最高为 1。该指标不仅考察模型能否“守住底线”,还奖励其提供积极有益的回答,让模型做到既安全又有用。(更多信息可访问360AI安全实验室官网)

02

背后的秘密:Control Token 技术

长期以来,大模型在 helpful(有用)和 harmless(安全)之间像跷跷板:提升安全性往往会牺牲能力。
TinyR1 系列提出的Control Token 方法,通过在训练数据里加入“控制标记”,让模型能根据任务类型灵活切换模式。

这意味着:推理、对齐、安全性不再互相拖后腿,而能并行提升

03

安全对齐的“轻量化版本”

除了 TinyR1-32B,实验室还同步开源了TinyR1-Safety-8B

这意味着企业或开发者可以轻松部署一个“小而精”的安全对齐模型,适配多种应用场景。






欢迎光临 链载Ai (https://www.lianzai.com/) Powered by Discuz! X3.5