链载Ai

标题: 英伟达GTC2025解读:AI和加速计算的战略布局 [打印本页]

作者: 链载Ai    时间: 5 小时前
标题: 英伟达GTC2025解读:AI和加速计算的战略布局
前言:一年一度的英伟达 (Nvidia) GTC 大会,无疑是全球科技界瞩目的焦点。这家在加速计算领域独占鳌头的科技巨擘,再次向世界全面展示了其在人工智能 (AI) 和加速计算领域的最新突破、前瞻布局以及战略蓝图。本次大会不仅发布了一系列令人震撼的硬件、软件和平台创新,而且在如何推进算力基石的持续突破、AI 基础设施的颠覆性变革、软硬一体生态系统的精细构建以及行业应用的广泛拓展等方面进行战略布局,深刻地揭示了英伟达对未来科技发展的趋势预判和战略考量。

点击公众号右上角...设为星标

1、核心主题:拥抱“AI工厂”时代

本次 GTC 大会最引人注目的莫过于 NVIDIA 提出的核心概念——AI 工厂 (AI Factory)。随着AI需求的快速增长,尤其是推理AI(Reasoning AI)和自主智能体 (Agentic AI) 的兴起,全球数据中心正经历着一场深刻的变革。未来的数据中心将不再仅仅是数据的存储和计算中心,更将成为生产AI模型和智能应用的“工厂”。

为了构建和运营这些复杂的 AI 工厂,需要全新的基础设施、软件和工具. NVIDIA 正致力于打造一个完整的生态系统,从底层的 GPU 硬件、高速网络,到中间的AI软件平台和行业应用,再到上层的云服务和企业解决方案,全方位赋能各行各业构建自己的 AI 工厂。

2、算力引擎的进化:新一代 GPU 登场

算力是驱动AI 进步的核心引擎,英伟达始终将提升算力置于其战略的核心地位。在 GTC 2025 上,英伟达创始人兼 CEO 黄仁勋 (Jensen Huang) 隆重揭晓了其下一代 GPU 架构的演进路线图,清晰地描绘了未来几年 AI 计算性能将迎来的新一轮指数级增长。

1)Blackwell UltraingFang SC", "Microsoft YaHei", "Source Han Sans SC", "Noto Sans CJK SC", "WenQuanYi Micro Hei", sans-serif;font-size: medium;font-style: normal;font-variant-ligatures: normal;font-variant-caps: normal;letter-spacing: normal;orphans: 2;text-align: start;text-indent: 0px;text-transform: none;widows: 2;word-spacing: 0px;-webkit-text-stroke-width: 0px;white-space: normal;background-color: rgb(255, 255, 255);text-decoration-thickness: initial;text-decoration-style: initial;text-decoration-color: initial;">:立足当下,巩固领先优势。作为NVIDIA Blackwell架构的最新演进,这是一个为AI推理时代构建的加速计算平台。Blackwell Ultra在AI模型训练和推理任务上实现了巨大的性能提升,特别是在推理方面,通过提升计算能力和测试时扩展推理技术 (test-time scaling inference,测试时扩展也称为长思维,可在AI推理期间动态增加计算,以实现更深入的推理),Blackwell Ultra 将加速AI训练、AI推理、自主智能体和具身智能等应用的落地。

Blackwell Ultra NVL72机柜,更是集成了72颗Blackwell Ultra GPU和36颗Grace CPU,拥有高达20TB的HBM容量和576TB/s的总带宽,专为AI推理时代定制。在FP4精度下,其推理算力可达1.1 ExaFLOPS,相比上一代GB200 NVL72,AI性能提升了1.5倍。

例如,在进行6710亿参数DeepSeek-R1模型的推理时,基于H100的产品每秒只能处理100个Token,而采用Blackwell Ultra NVL72方案,这一数字可以达到每秒1000个Token,推理时间从2.5分钟缩短至15秒。这无疑将极大地提升AI应用的响应速度和用户体验。

blackwell ultra nvl72

2)Vera Rubin 架构:着眼未来,探索性能新高。英伟达计划于 2026 年下半年代号为Vera Rubin的下一代GPU架构。Vera Rubin不仅将配备数十GB的超大容量内存,更值得关注的是,它将首次集成英伟达定制设计的Vera CPU。英伟达声称,Vera Rubin 在AI推理和训练任务上的性能将比其前代Grace Blackwell架构实现显著的飞跃式提升,尤其是在对计算密集型的AI推理和模型训练工作负载方面,其性能提升幅度将更加令人期待。Vera Rubin的命名是为了致敬发现暗物质的著名女天文学家薇拉·鲁宾(Vera Rubin),也寓意着英伟达将在 AI 计算领域探索和发现新的未知领域。

3)Rubin Ultra:四芯合璧,剑指极致算力。紧随 Vera Rubin 之后,英伟达的 GPU 演进路线图上又一颗耀眼的明星——Rubin Ultra,预计将于 2027 年下半年发布。Rubin Ultra 的创新之处在于,它将在一个物理封装内集成四个高性能GPU核心,从而能够提供高达100 petaflops的计算性能。这种多芯片封装的技术突破,代表了英伟达在追求极致算力道路上的又一次大胆尝试和技术创新,旨在满足未来对于超大规模 AI 模型和极高计算吞吐量的需求。

4)Feynman 架构:放眼长远,引领技术前沿。在更为长远的战略规划中,英伟达还首次公开预告了代号为 Feynman 的未来 GPU 架构。Feynman架构将是Rubin Vera架构的继任者,并且同样会集成 Vera CPU,预计将在 2028 年推向市场。其命名是为了纪念美国著名理论物理学家、量子电动力学奠基人之一的理查德·费曼 (Richard Feynman)。尽管目前关于 Feynman 架构的细节信息还非常有限,但其命名本身就暗示了英伟达对未来计算技术的更高期望和更深层次的探索,例如可能采用超越 HBM4e 的下一代内存技术。

这一清晰而富有前瞻性的 GPU 发展路线图,不仅充分展现了英伟达持续投入巨额研发资源、不断突破算力瓶颈的坚定决心,更预示着 AI 计算将在未来几年内迎来前所未有的发展机遇。英伟达遵循着“年度节奏”来稳步构建其全面的AI基础设施,每年都将为行业带来在 GPU、CPU 和加速计算技术方面的重大进步。

3、计算范式的颠覆性变革:从传统数据中心到AI工厂的时代飞跃

本次 GTC 大会的核心理念之一“AI 工厂”(AI Factory)。英伟达深刻洞察到,未来的计算中心将不再仅仅是数据的存储和简单处理场所,更将演变为大规模生产和生成 AI 智能的现代化工厂。为了支撑和加速这一颠覆性计算范式的转变,英伟达推出了一系列至关重要的技术、产品和平台。

1)NVLink的持续演进:NVLink 作为 NVIDIA GPU 之间的高速互联技术,在 Blackwell Ultra 和 Vera Rubin 时代将继续升级。第五代 NVLink 技术将连接 DGX GB300 系统中的 72 个 Grace Blackwell Ultra GPU,形成一个巨大的共享内存空间。

2)NVIDIA Dynamo:AI 工厂的智能“操作系统”。为了能够高效地管理、编排和优化运行这些大规模的 AI 工厂,英伟达重磅推出了全新的NVIDIA Dynamo软件平台,其核心功能在于有效地管理和调度AI数据中心内部海量的计算资源和复杂的AI工作负载,实现对AI模型训练、微调和推理过程的全面优化,从而显著提升 AI 推理的性能,缩短响应时间,并最终降低 AI 基础设施的总体拥有成本 (TCO)。Dynamo 的推出,标志着英伟达在构建端到端AI解决方案方面迈出了关键一步。

3)光子互联技术的突破:为了应对未来百万级甚至千万级 GPU 的互联挑战, NVIDIA 取得了硅光子技术的重大突破,发明了世界首个 MRM(微镜)技术。这项技术将光信号直接集成到芯片中,无需传统的光收发器,大幅降低功耗和成本. NVIDIA 计划在今年下半年出货基于硅光子技术的 Quantum-X (InfiniBand) 交换机,并在 2026 年下半年出货 Spectrum-X (以太网) 交换机. 这将为构建超大规模 AI 工厂奠定基础。

4)Spectrum-X 以太网的增强:NVIDIA 致力于提升以太网在 AI 工作负载下的性能,其 Spectrum-X 技术带来了拥塞控制、低延迟等特性. 越来越多的企业正在采用集成 Spectrum-X 的方案构建 AI 基础设施。

5)Blackwell Ultra DGX SuperPOD:构建企业级AI工厂的强大基石。面向需要构建大规模AI工厂的企业级用户,英伟达推出了基于最新 Blackwell Ultra GPU的下一代DGX SuperPOD。这一开箱即用的企业级AI超级计算机,集成了Blackwell Ultra GPU和NVIDIA高速网络技术,旨在为企业构建高性能、高扩展性的 AI 工厂提供强大的算力基础设施,从而加速包括推理AI、代理AI 和物理AI在内的各种先进AI应用的开发、训练和部署。整个DGX SuperPOD可以通过NVIDIA NVLink、NVIDIA Quantum-X800 InfiniBand和NVIDIA Spectrum-X以太网等先进的网络技术扩展至数万个 Grace Blackwell Ultra Superchip。

Blackwell Ultra DGX SuperPOD

NVIDIA DGX SuperPOD architecture

6)NVIDIA Instant AI Factory:加速AI基础设施的全球化部署。为了快速响应全球范围内对先进 AI 基础设施日益增长的迫切需求,英伟达创新性地推出了NVIDIA Instant AI Factory。这是一项全面的托管服务,其核心是基于Blackwell Ultra驱动的NVIDIA DGX SuperPOD。通过 Instant AI Factory,企业可以更便捷、更快速地部署和扩展其 AI基础设施。全球领先的数据中心服务提供商Equinix将成为首家提供该项服务的战略合作伙伴,将在其遍布全球 45 个市场的预配置液冷或风冷 AI 就绪数据中心中提供最新的 DGX GB300 和 DGX B300 系统。

7)AI 工厂的“数字孪生”:NVIDIA Omniverse 的赋能。在构建和管理复杂的 AI 工厂方面,英伟达同样展现了其前瞻性的思考。他们展示了如何利用强大的NVIDIA Omniverse蓝图来创建和优化AI工厂的“数字孪生”。工程师可以在高度逼真的虚拟环境中设计、测试和优化下一代智能制造数据中心的布局、电力和冷却系统等关键组件,从而在物理建设开始之前就能够发现潜在问题、优化资源利用率,并最终显著降低建设成本和提高运营效率。

4、从数据中心到个人:AI计算的普惠
英伟达的战略布局不仅着眼于大型数据中心,也致力于将强大的AI计算能力带到企业边缘和个人工作站。本次GTC,英伟达发布了两款引人注目的“个人AI超级计算机”:DGX Spark(此前称为Project Digits)和DGX Station。
1)DGX Spark:搭载GB10 Grace Blackwell Superchip,能够提供高达1 PetaFlops的FP4精度AI算力,内置128GB LPDDR5X内存,可运行高达2000亿参数的模型,其体积与Mac mini相近,两台DGX Spark互联即可运行超过4000亿参数的模型。DGX Spark已于GTC 2025期间正式发布。

2)DGX Station:性能更为强劲的DGX Station则配备了最先进的GB300 Grace Blackwell Ultra Desktop Superchip,并拥有高达784GB的超大容量内存。

这两款紧凑而强大的“个人超算”旨在为AI开发者、研究人员、数据科学家和学生提供前所未有的桌面级AI开发平台,使他们能够在本地高效地进行大型 AI 模型的原型设计、微调和推理。随着AI Agent的普及,我们需要一种全新的计算机形态,而DGX Spark和DGX Station正是对这一未来趋势的回应。

5、软硬一体的生态系统:驱动 AI 创新与行业应用的蓬勃发展

英伟达的战略布局远不止于提供强大的硬件算力,更在于构建一个全面、开放且高度优化的 AI 软件生态系统,并积极携手全球合作伙伴,推动 AI 技术在各个行业的广泛应用,实现真正的智能变革。

1)NVIDIA NIM 微服务:加速 AI 模型的部署与商业化。NVIDIA NIM (NVIDIA Inference Microservices)是一套经过预构建和高度优化的 AI 模型和推理引擎的集合。其核心目标是大幅简化 AI 模型的部署和扩展过程,加速 AI 技术的商业化落地。在本次 GTC 大会上,英伟达重点推出了基于开源 Llama 大语言模型的Llama Nemotron 推理模型系列。这是一个具备强大推理能力的开源模型家族,旨在为开发者和企业构建先进的 AI 代理 (AI Agents) 提供坚实的基础。Llama Nemotron 模型提供了 Nano、Super 和 Ultra 三种不同尺寸的版本,分别针对 PC 和边缘设备、单 GPU服务器以及多GPU服务器等不同的部署场景进行了深度优化,以满足各种应用需求。英伟达还积极与包括微软、SAP 和埃森哲在内的众多行业领军企业合作,共同开发和部署基于Llama Nemotron的新型推理模型。

2)CUDA-X 加速库:拓展加速计算的应用边界,赋能科学与工程创新。英伟达持续大力扩展其功能强大的CUDA-X加速库。这些专门构建的加速库为各种关键的科学和工程领域提供了强大的 GPU 加速能力,极大地提升了计算效率和模拟精度。例如,cuLitho库专注于加速计算光刻技术,这对于半导体制造业至关重要。cuNumeric库为广泛使用的 Python 数值计算库 NumPy 提供了零代码更改的 GPU 加速方案。Ariel库可以将通用的 GPU 转化为高性能的 5G 无线电,为下一代无线通信技术奠定基础。cuOpt库则用于解决各种行业中复杂的优化问题,例如航班和酒店预订、供应链管理等。此外,CUDA-X 库还包括用于基因测序和分析的Parabricks、世界领先的医学影像库MONAI、用于高精度天气预测的Earth-2。这些加速库的不断丰富和完善,极大地拓展了 GPU 加速计算的应用边界,赋能各行各业的创新发展。

3)Omniverse 和 Cosmos:打造物理世界中的智能,赋能机器人和自动驾驶。NVIDIA Omniverse和Cosmos平台为机器人和自主系统的开发提供了强大的仿真和数字孪生能力。

在 GTC 2025 上,英伟达发布了Isaac GR00T N1,这是一个具有里程碑意义的全球首个开放、完全可定制的人形机器人通用基础模型。GR00T N1 基于大量的合成数据和真实数据进行训练,拥有一个受到人类认知过程启发的双系统架构,能够实现“快思考”和“慢思考”相结合,使其在感知、推理、规划和执行复杂任务时更加高效和智能。

此外,英伟达还与Google DeepMind和Disney Research展开深度合作,推出了创新的Newton 物理引擎。Newton 旨在提供高度逼真且 GPU 加速的物理模拟能力,用于训练机器人与物理世界的交互,包括刚体和软体的精细模拟、触觉反馈以及精细运动技能的学习。Newton 基于NVIDIA Warp构建,使机器人能够更精确地学习如何处理复杂任务,并与MuJoCo Playground或 NVIDIA Isaac Lab(一种用于机器人学习的开源统一框架)等学习框架兼容。

在机器人领域,英伟达发布了NVIDIA Isaac Mega,这是一个用于大规模多机器人仿真和测试的平台。

在自动驾驶领域,英伟达推出了NVIDIA Halos Safety,这是一个全栈式综合安全系统,它统一了车辆架构、AI 模型、芯片、软件、工具和服务,以确保自动驾驶汽车 (AV) 从云端到汽车的安全开发。通用汽车 (GM) 和沃尔沃汽车等领先汽车制造商都在积极利用英伟达的 DGX 平台进行 AI 模型训练,利用 Omniverse 和 Cosmos 进行仿真,并利用 DRIVE AGX平台进行车辆内计算,以优化生产制造并提升车辆安全性。Gatik 和 Uber Freight 等公司也在利用 NVIDIA DRIVE AGX 平台驱动其无人驾驶送货卡车和提升货运效率。

4)广泛的行业合作与应用拓展:AI 赋能千行百业,加速AI转型。英伟达深知,AI 的真正价值在于其在各个行业的广泛应用。因此,英伟达积极与全球各行各业的领军企业展开深入的战略合作,共同推动 AI 技术在不同领域的创新应用,加速各行业的AI转型进程。

6、展望未来:普惠AI的时代与持续不断的创新

从GTC 2025我们可以清晰地看到英伟达的战略目标是将AI技术普及到各行各业,赋能更广泛的用户群体。英伟达正积极致力于构建一个强大且开放的AI生态系统,通过持续不断的技术创新、全面且高度优化的软件平台以及积极主动的行业合作,坚定地推动AI技术从早期的感知AI、生成式AI向更高级的推理AI和自主智能体的方向快速演进。

黄仁勋强调,“人工智能正处于一个历史性的拐点,未来世界将涌现出数十亿乃至数万亿的数字AI智能体 (AI Agents),AI 将以前所未有的深度和广度重塑整个计算堆栈,从最底层的处理器架构到最上层的应用程序和服务都将发生深刻的变革“。英伟达正凭借其在加速计算领域的绝对领先地位,引领着这场划时代的变革,推动 AI 从一个新兴的技术领域走向一个工业级的智能生产过程。

在这一宏伟的愿景中,强大的算力是基石,高效的AI基础设施是关键,完善的软件生态系统是保障,而广泛的行业合作则是加速普及的催化剂。英伟达正通过其全面的战略布局,积极拥抱 AI 时代带来的巨大机遇和严峻挑战,致力于成为驱动下一代计算和人工智能发展的核心引擎。






欢迎光临 链载Ai (https://www.lianzai.com/) Powered by Discuz! X3.5