深入对比分析 Llama 模型,在面对未添加越狱攻击手法的 25 个测试样本时,无论是 Llama 3 还是 Llama 2 都能准确地拒绝回答,表现出良好的风险收敛能力。然而,一旦测试样本中加入了越狱攻击手法,它们的漏答率便分别上升至 7.78% 和 6%,这意味着在面对经过精心设计的变异攻击时,Llama 模型的安全性依然有待提升,示例说明如下。

综合来看,Llama 系列模型在行业内处于领先地位,尤其在安全性能上表现突出。然而,部分开源模型在安全性方面仍有待提升,这提醒我们在使用这些模型时应保持谨慎态度,并持续努力改进其安全性能,以确保在使用过程中能够更有效地规避潜在风险。