|
Meta于20241206发布了Llama 3.3,共有 700 亿参数(70B),性能方面媲美拥有4050亿参数的Llama 3.1的效果。多项测试效果及表现接近GPT-4o 目标: 模型: 在架构方面,Llama 3.3 是一款自回归(auto-regressive)语言模型,使用优化的transformer decoder架构,其微调版本使用了监督式微调(SFT)和基于人类反馈的强化学习(RLHF),让其与人类对有用性和安全性的偏好保持一致。 安全方面,Meta 采用数据过滤、模型微调和系统级安全防护等措施,以降低模型滥用的风险;此外 Meta 鼓励开发者在部署 Llama 3.3 时采取必要的安全措施,例如: 功能:检测并阻止恶意或不当的输入提示。 作用:防止用户通过特定提示诱导模型生成有害内容。
Llama 3.3采用了全新的对齐过程(New Alignment Process)和改进的在线强化学习(online RL)技术,使之在70B参数的情况下达到与Llama 3.1 405B相当的性能水平。 更精细的指令微调:通过更高质量的人类反馈数据(如人类偏好数据)对模型进行微调,使其输出更符合人类期望。 多目标优化:同时优化多个目标(如准确性、安全性、公平性),而不仅仅是单一的性能指标。 动态对齐:在模型部署后持续监控和调整,确保其行为始终符合预期。 作用:提升模型的有用性、安全性和可控性,减少有害或不符合预期的输出。
强化学习(Reinforcement Learning, RL):一种机器学习方法,模型通过与环境交互,根据奖励信号优化行为。 在线强化学习(Online RL):在模型部署后,实时从用户交互中学习并改进。 优化点:
实时反馈:通过用户交互数据(如点赞、纠正、反馈)动态调整模型,使其输出更符合用户需求。 高效学习:采用更高效的算法,减少对大量数据的依赖,同时避免模型性能下降。 安全约束:在强化学习过程中加入安全约束,防止模型学习到有害行为。 作用:使模型能够持续改进,适应多样化的用户需求,同时保持高性能和安全性。
总之,Llama 3.3在参数更少的情况下达到与更大模型相当的性能,同时更具安全性和适应性。 |