Meta Llama 3 模型详解

显示全部楼层

Meta Llama3模型详解

Meta公司开发并发布了一系列名为MetaLlama3的大型语言模型（LLM），其中包括8B和70B两种规模的预训练和指令微调生成文本模型。Llama3的指令微调模型针对对话场景进行了优化，在常见的行业基准测试中，其性能超越了许多现有的开源聊天模型。更重要的是，在开发这些模型的过程中，Meta非常注重提升模型的帮助性和安全性。

模型开发者：Meta公司

模型变体：Llama3有两种规模——8B和70B参数——并且每种规模都包含预训练和指令微调两种变体。

模型输入：模型仅接受文本输入。

模型输出：模型仅生成文本和代码。

模型架构：Llama3是一种自回归语言模型，采用了优化的Transformer架构。微调版本使用了监督微调（SFT）和带有人类反馈的强化学习（RLHF）技术，以确保模型与人类对帮助性和安全性的偏好保持一致。

训练数据

参数

上下文长度

GQA

令牌数量

知识截止日期

Llama3

公开可用的在线数据的新组合。

8B

8k

是

15T+

2023年3月

70B

8k

是

2023年12月

Llama3模型系列。令牌数量仅指预训练数据。8B和70B版本都使用了分组查询注意力（GQA）技术，以提升模型推理的可扩展性。

模型发布日期：2024年4月18日。

模型状态：这是一个在离线数据集上训练的静态模型。随着Meta公司根据社区反馈不断改进模型的安全性，未来将会发布更多版本的微调模型。

模型许可证：自定义商业许可证可在以下网址获得：https://llama.meta.com/llama3/license

关于模型的问题或意见的发送地点：有关如何提供对模型的反馈或意见的说明，请参阅模型README。有关生成参数和如何在应用程序中使用Llama3的方法的更多技术信息，请访问此处。

预期用途

预期用例：Llama3适用于英语的商业和研究用途。指令微调模型适用于类似助手的聊天场景，而预训练模型可以适用于各种自然语言生成任务。

范围外使用：以任何违反适用法律或法规（包括贸易合规法律）的方式使用Llama3。以任何其他被可接受使用政策和Llama3社区许可证禁止的方式使用Llama3。使用英语以外的语言**。

注意：开发者可以针对英语以外的语言微调Llama3模型，前提是他们遵守Llama3社区许可证和可接受使用政策。

硬件和软件

训练因素：Meta公司使用自定义训练库、Meta的研究超级集群和生产集群进行预训练。微调、标注和评估也在第三方云计算平台上进行。

碳足迹：预训练累计使用了7.7MGPU小时的计算，硬件类型为H100-80GB（TDP为700W）。估计总排放量为2290吨二氧化碳当量，其中100%由Meta的可持续发展计划抵消。

时间（GPU小时）

功耗（W）

碳排放量（吨二氧化碳当量）

Llama38B

1.3M

700

390

Llama370B

6.4M

700

1900

总计

7.7M

2290

预训练期间的二氧化碳排放量。时间：训练每个模型所需的总GPU时间。功耗：使用的GPU的每个GPU设备的峰值功率容量，根据电源使用效率进行调整。100%的排放量直接由Meta的可持续发展计划抵消，并且由于我们是公开发布这些模型的，因此其他人不需要承担预训练成本。

训练数据

概述：Llama3使用来自公开可用来源的超过15万亿个令牌的数据进行预训练。微调数据包括公开可用的指令数据集，以及超过10M个人工标注的示例。预训练和微调数据集都不包含Meta用户数据。

数据新鲜度：预训练数据的截止日期分别为7B模型的2023年3月和70B模型的2023年12月。

基准测试

在本节中，我们将报告Llama3模型在标准自动基准测试中的结果。对于所有评估，我们使用Meta公司内部的评估库。有关方法的详细信息，请参阅此处。

基本预训练模型

类别

基准测试

Llama38B

Llama27B

Llama213B

Llama370B

Llama270B

一般

MMLU（5-shot）

66.6

45.7

53.8

79.5

69.7

AGIEval英语（3-5shot）

45.9

28.8

38.7

63.0

54.8

CommonSenseQA（7-shot）

72.6

57.6

67.6

83.8

78.7

Winogrande（5-shot）

76.1

73.3

75.4

83.1

81.8

BIG-BenchHard（3-shot，CoT）

61.1

38.1

47.0

81.3

65.7

ARC-Challenge（25-shot）

78.6

53.7

67.6

93.0

85.3

知识推理

TriviaQA-Wiki（5-shot）

78.5

72.1

79.6

89.7

87.5

阅读理解

SQuAD（1-shot）

76.4

72.2

72.1

85.6

82.6

QuAC（1-shot，F1）

44.4

39.6

44.9

51.1

49.4

BoolQ（0-shot）

75.7

65.5

66.9

79.0

73.1

DROP（3-shot，F1）

58.4

37.9

49.8

79.7

70.2

指令微调模型

基准测试

Llama38B

Llama27B

Llama213B

Llama370B

Llama270B

MMLU（5-shot）

68.4

34.1

47.8

82.0

52.9

GPQA（0-shot）

34.2

21.7

22.3

39.5

21.0

HumanEval（0-shot）

62.2

7.9

14.0

81.7

25.6

GSM-8K（8-shot，CoT）

79.6

25.7

77.4

93.0

57.5

MATH（4-shot，CoT）

30.0

3.8

6.7

50.4

11.6

责任与安全

Meta相信，开放的AI方法可以带来更好、更安全的产品、更快的创新和更大的整体市场。Meta致力于负责任的AI开发，并采取了一系列措施来限制误用和损害，并支持开源社区。

基础模型是功能广泛的技术，旨在用于各种不同的应用程序。它们并非设计为开箱即用地满足每个开发者对所有用例的安全级别偏好，因为这些偏好本质上会在不同的应用程序中有所不同。

相反，负责任的LLM应用程序部署是通过在开发此类应用程序的整个过程中实施一系列安全最佳实践来实现的，从模型预训练、微调和部署由保障措施组成的系统，以根据用例和受众的具体需求定制安全需求。

作为Llama3版本的一部分，Meta更新了责任使用指南，以概述开发者为其应用程序实施模型和系统级安全的步骤和最佳实践。Meta还提供了一系列资源，包括MetaLlamaGuard2和CodeShield保障措施。这些工具已被证明可以大幅降低LLM系统的残余风险，同时保持高水平的帮助性。Meta鼓励开发者根据他们的需求调整和部署这些保障措施，并提供了一个参考实现来帮助开发者入门。

Llama3-Instruct

如责任使用指南中所述，模型帮助性与模型一致性之间的一些权衡可能是不可避免的。开发者应酌情决定如何权衡其特定用例和受众的一致性和帮助性的好处。开发者在使用Llama模型时应注意残余风险，并根据需要利用额外的安全工具来达到其用例的正确安全标准。

安全

对于Meta的指令微调模型，Meta进行了广泛的红队演练，进行了对抗性评估，并实施了安全缓解技术，以降低残余风险。与任何大型语言模型一样，残余风险可能仍然存在，Meta建议开发者在其用例的背景下评估这些风险。与此同时，Meta正在与社区合作，使AI安全基准标准透明、严格和可解释。

拒绝

除了残余风险之外，Meta还非常重视模型对良性提示的拒绝。过度拒绝不仅会影响用户体验，甚至在某些情况下也会造成伤害。Meta已经听取了开发者社区的反馈，并改进了微调过程，以确保Llama3比Llama2拒绝回答提示的可能性大大降低。

Meta建立了内部基准，并开发了缓解措施来限制错误拒绝，使Llama3成为Meta迄今为止最有帮助的模型。

负责任的发布

除了上述负责任使用注意事项外，Meta还遵循严格的流程，要求在做出发布决定之前采取额外措施来防止误用和关键风险。

误用

如果您访问或使用Llama3，则表示您同意可接受使用政策。该政策的最新副本可在https://llama.meta.com/llama3/use-policy/上找到。

关键风险

CBRNE（化学、生物、放射性、核和高产炸药）

Meta对该领域的模型安全性进行了双重评估：

在模型训练期间进行迭代测试，以评估与CBRNE威胁和其他对抗性风险相关的响应的安全性。

邀请外部CBRNE专家进行提升测试，评估模型准确提供专业知识的能力，并通过参考使用网络搜索（不使用模型）可以实现的目标来降低潜在CBRNE误用的障碍。

网络安全

Meta使用CyberSecEval（Meta的网络安全安全评估套件）评估了Llama3，测量了Llama3在用作编码助手时建议不安全代码的倾向，以及Llama3遵守帮助执行网络攻击的请求的倾向，其中攻击由行业标准MITREATT&CK网络攻击本体定义。在我们不安全的编码和网络攻击者帮助测试中，Llama3的行为与同等编码能力的模型处于同一范围或更安全。

儿童安全

儿童安全风险评估由专家团队进行，以评估模型产生可能导致儿童安全风险的输出的能力，并通过微调告知任何必要和适当的风险缓解措施。我们利用这些专家红队会议，通过Llama3模型开发扩展了我们评估基准的覆盖范围。对于Llama3，我们使用基于目标的方法进行了新的深入会议，以评估模型沿多个攻击载体的风险。我们还与内容专家合作，执行红队演练，评估潜在的违规内容，同时考虑特定市场的细微差别或经验。

社区

生成式AI安全需要专业知识和工具，Meta相信开放社区的力量可以加速其进展。Meta是开放联盟的积极成员，包括AI联盟、AI合作伙伴关系和MLCommons，积极为安全标准化和透明度做出贡献。Meta鼓励社区采用MLCommons概念验证评估等分类法，以促进安全和内容评估方面的协作和透明度。Meta的PurpleLlama工具是开源的，供社区使用，并在生态系统合作伙伴（包括云服务提供商）中广泛分发。Meta鼓励社区为Github存储库做出贡献。

最后，Meta设立了一系列资源，包括输出报告机制和漏洞赏金计划，以在社区的帮助下不断改进Llama技术。

道德考量和局限性

Llama3的核心价值观是开放、包容和帮助。它旨在服务于所有人，并适用于各种用例。因此，它的设计目的是让具有不同背景、经验和观点的人们都能访问它。Llama3按照用户的实际情况及其需求来处理，不会插入不必要的判断或规范性，同时反映了这样一种理解，即即使在某些情况下可能出现问题的內容，在其他情况下也可以服务于有价值的目的。它尊重所有用户的尊严和自主权，尤其是在推动创新和进步的思想和表达自由的价值观方面。

但Llama3是一项新技术，与任何新技术一样，它的使用也存在风险。迄今为止进行的测试都是用英语进行的，并没有涵盖，也不可能涵盖所有场景。由于这些原因，与所有LLM一样，Llama3的潜在输出无法提前预测，并且该模型在某些情况下可能会对用户提示产生不准确、有偏见或其他令人反感的响应。因此，在部署Llama3模型的任何应用程序之前，开发者应执行针对其模型特定应用的安全测试和调整。如责任使用指南中所述，Meta建议将PurpleLlama解决方案纳入您的工作流程，特别是LlamaGuard，它提供了一个基础模型来过滤输入和输出提示，以便在模型级安全之上构建系统级安全。