链载Ai

标题: 360 [打印本页]

作者: 链载Ai 时间: 2025-12-1 22:22
标题: 360

大模型一定要“又大又笨重”吗？

9月23日，360&北大-大模型联合实验室给出了一个新答案：TinyR1-32B。

这个模型只有同类超大模型5%的参数量，却在推理和安全对齐上实现了“双突破”，部分能力甚至已经追平或超越DeepSeek R1-0528等明星大模型。

01 为什么它值得关注？

推理能力

在数学、科学、代码等任务上大幅超越 Qwen3-32B，整体性能达到 DeepSeek R1-0528 的93%。

通用对齐

在 IFEval 测评中拿到89.2分，明显高于 DeepSeek R1 的80.9分。

安全对齐

Constructive Safety 得分接近90分，不仅能“拒答”，还能提供建设性的正向引导。

一句话总结：小体量，却能做到“大模型级”的思考与安全。

为了衡量安全表现，团队设计了一个三层次的评分体系：

最终的Constructive Safety Score是在测试集上计算的归一化分数，最高为 1。该指标不仅考察模型能否“守住底线”，还奖励其提供积极有益的回答，让模型做到既安全又有用。（更多信息可访问360AI安全实验室官网）

背后的秘密：Control Token 技术

长期以来，大模型在 helpful（有用）和 harmless（安全）之间像跷跷板：提升安全性往往会牺牲能力。
TinyR1 系列提出的Control Token 方法，通过在训练数据里加入“控制标记”，让模型能根据任务类型灵活切换模式。

这意味着：推理、对齐、安全性不再互相拖后腿，而能并行提升。

除了 TinyR1-32B，实验室还同步开源了TinyR1-Safety-8B。

这意味着企业或开发者可以轻松部署一个“小而精”的安全对齐模型，适配多种应用场景。

欢迎光临链载Ai (https://www.lianzai.com/)