链载Ai

标题: Meta 对 DeepSeek 的回应来了:Llama 4 发布,上下文长达 1000 万,参数超 2 万亿! [打印本页]

作者: 链载Ai    时间: 3 小时前
标题: Meta 对 DeepSeek 的回应来了:Llama 4 发布,上下文长达 1000 万,参数超 2 万亿!
Meta 的 Llama 系列自诞生以来,便以其卓越的性能和开源精神引领了大型语言模型(LLM)社区的浪潮。然而,自 Llama 3 发布以来,时间已悄然流逝近一年,开源爱好者和开发者们翘首以盼的下一代模型迟迟未现。

就在今天,我们终于迎来了 Llama 4 的震撼亮相!作为 Llama 家族的第四代产品,这一全新模型不仅延续了 Meta 的技术传承,更在性能、功能和应用场景上实现了质的飞跃,标志着开源 AI 迈向新纪元。

本文将从背景、技术特性、模型变体、应用潜力以及未来展望五个方面,带您全面了解 Llama 4 的魅力。

一、背景与发展历程

Llama(Large Language Model Meta AI)系列由 Meta AI 于 2023 年首次推出,旨在为研究人员和开发者提供高效、开源的语言模型解决方案。从初代 Llama 到后续的 Llama 2 和 Llama 3,Meta 逐步放宽模型的访问权限,并引入了指令微调版本和多模态功能,使其在学术界和产业界广受欢迎。

然而,开源领域的竞争从未停歇,尤其是中国 AI 公司 DeepSeek 的崛起,对 Meta 的 Llama 系列构成了显著压力。DeepSeek 自 2024 年以来推出了多款高性能开源模型(如 DeepSeek-V2),以其高效的推理能力和多语言支持迅速在全球开发者社区中占据一席之地。

这种外部竞争迫使 Meta 加速 Llama 4 的研发,甚至一度传闻,Meta 组建了作战室来解密 DeepSeek 如何降低运行和部署R1和V3等模型的成本,以巩固其在开源 LLM 领域的领导地位。

据报道,Llama 4 的训练使用了超过 10 万个 H100 GPU 的超大规模集群,用于训练的整体数据组合由超过 30 万亿个 token 组成,是 Llama 3 预训练组合的两倍多,包括各种文本、图像和视频数据集。,也反映了 Meta 对抗 DeepSeek 等新兴对手的决心。

Mark Zuckerberg 在早前的声明中表示,Llama 4 旨在成为“行业中最先进的模型”,并推动 AI 代理(AI Agents)和多模态应用的普及。这一目标的背后,既是对技术突破的追求,也是对市场竞争的回应。

二、技术特性

今天,Meta 创始人兼 CEO 马克·扎克伯格在他的 Instagram 账号上宣布了新的 Llama 4 系列模型,其中两个——4000 亿参数的 Llama 4 Maverick 和 1090亿参数的 Llama 4 Scout——今天即可供开发者下载并开始使用或微调,现在可以在 llama.com 和 AI 代码共享社区 Hugging Face 上进行。

今天还预览了一款拥有2 万亿参数的 Llama 4 巨兽,尽管 Meta 的博客文章关于发布的内容表示它仍在训练中,并未给出可能发布的具体时间。(参数指的是控制模型行为的设置,一般来说参数越多意味着模型更强大、更复杂。)

这些模型的一个主要特点是它们都是多模态的——经过训练,因此能够接收和生成文本、视频和图像(尽管没有提到音频)。

图:LLama4 Maverick 在 LMArena 上评分位 1417 分

另一个特点是它们的上下文窗口非常长——Llama 4 Maverick 为 100 万个标记(Token),Llama 4 Scout 为 1000 万个标记——分别相当于大约 15000 和 150000 页文本,所有这些模型都可以在一次输入/输出交互中处理。这意味着用户理论上可以上传或粘贴多达 7500 页的文本,并从 Llama 4 Scout 那里获得等量的信息,这对于信息密集型领域如医学、科学、工程、数学、文学等将非常有用。

Llama 4 在架构设计、训练数据和功能扩展上均有显著创新,以下是其核心技术特点:

  1. 超大上下文窗口
    Llama 4 的一个亮点是其上下文窗口(context window)长度。Llama 4 Scout 模型支持高达 1000 万 token 的上下文窗口,这一数字刷新了开源模型的纪录。与之相比,Llama 3 的最大上下文仅为 128k token,而市场上其他领先模型如 GPT-4o 也未达到如此规模。超大上下文窗口使得 Llama 4 在处理长文档、复杂对话和多轮推理任务时表现出色。

  2. 混合专家模型(MoE)架构
    Llama 4 全系采用了混合专家模型(Mixture of Experts, MoE)架构,这一设计通过将计算任务分配给多个“专家”子模型,提升了效率和性能。与传统密集模型相比,MoE 架构在保持高精度的同时显著降低了推理成本。

    据悉,Llama 4 Maverick 和即将推出的 Behemoth 模型在此基础上进一步优化,使其在多模态任务中表现尤为突出。这一技术选择或许是对 DeepSeek 在 MoE 架构上成功应用的回应,后者在 DeepSeek-V2 中率先展示了其高效性。

  3. 多模态能力
    Llama 4 不再局限于文本处理,而是迈向真正的多模态模型。Llama 4 Maverick 支持图像输入和语音交互,能够处理视觉-语言任务(如图像描述)和语音对话。这种原生多模态设计(而非简单的模块拼接)使其在复杂场景下的表现超越了部分竞争对手,例如 GPT-4o和 Gemini 2.0 Flash。

  4. 参数规模与优化
    Llama 4 提供了多个变体,参数规模从小型的 Scout(16 位专家,17B 活跃参数,总参数 109B)到超大型的 Behemoth( 16位专家,17B 活跃参数,总参数高达 2 万亿)不等。Meta 还提供了量化版本(如 BF16 和 FP8),以适配不同硬件需求。

    例如,Llama 4 Maverick (128 位专家,总参数 400B)的 FP8 量化权重可在一台 H100 DGX 上运行,兼顾性能与部署灵活性。而Llama4 Scout 甚至能在单个 H100 GPU 上云运行(使用 Int4 量化)。

  5. 数据质量与多样性
    Llama 4 的训练数据不仅包括公开的网络数据,还整合了 Meta 生态系统内的许可数据(如 Instagram 和 Facebook 的公开帖子)以及用户与 Meta AI 的交互记录。这种多样化的数据来源提升了模型在多语言支持(覆盖阿拉伯语、英语、法语等 12 种语言)和现实场景中的适应性,与 DeepSeek 在多语言优化上的努力形成直接竞争。

三、模型变体

Llama 4 系列包括三种主要变体,分别针对不同需求:

  1. Llama 4 Scout






欢迎光临 链载Ai (https://www.lianzai.com/) Powered by Discuz! X3.5