Gemini Diffusion：1500 token/秒，快如闪电！

显示全部楼层

ingFang SC", Cambria, Cochin, Georgia, Times, "Times New Roman", serif;font-style: normal;font-variant-ligatures: normal;font-variant-caps: normal;font-weight: 400;letter-spacing: 0.75px;orphans: 2;text-align: justify;text-indent: 0px;text-transform: none;widows: 2;word-spacing: 0px;-webkit-text-stroke-width: 0px;white-space: normal;background-color: rgb(255, 255, 255);text-decoration-thickness: initial;text-decoration-style: initial;text-decoration-color: initial;">谷歌推出革命性文本扩散技术！

ingFang SC", Cambria, Cochin, Georgia, Times, "Times New Roman", serif;font-style: normal;font-variant-ligatures: normal;font-variant-caps: normal;font-weight: 400;letter-spacing: 0.75px;orphans: 2;text-align: justify;text-indent: 0px;text-transform: none;widows: 2;word-spacing: 0px;-webkit-text-stroke-width: 0px;white-space: normal;background-color: rgb(255, 255, 255);text-decoration-thickness: initial;text-decoration-style: initial;text-decoration-color: initial;">你可能没注意的是，Google DeepMind 在 I/O 2025 上发布了一个重磅实验性模型——Gemini Diffusion！

ingFang SC", Cambria, Cochin, Georgia, Times, "Times New Roman", serif;font-style: normal;font-variant-ligatures: normal;font-variant-caps: normal;font-weight: 400;letter-spacing: 0.75px;orphans: 2;text-align: justify;text-indent: 0px;text-transform: none;widows: 2;word-spacing: 0px;-webkit-text-stroke-width: 0px;white-space: normal;background-color: rgb(255, 255, 255);text-decoration-thickness: initial;text-decoration-style: initial;text-decoration-color: initial;">一个将扩散（diffusion）技术用于文本生成的全新尝试！

ingFang SC", Cambria, Cochin, Georgia, Times, "Times New Roman", serif;font-style: normal;font-variant-ligatures: normal;font-variant-caps: normal;font-weight: 400;letter-spacing: 0.75px;orphans: 2;text-align: justify;text-indent: 0px;text-transform: none;widows: 2;word-spacing: 0px;-webkit-text-stroke-width: 0px;white-space: normal;background-color: rgb(255, 255, 255);text-decoration-thickness: initial;text-decoration-style: initial;text-decoration-color: initial;">这或许是一个意义重大的技术突破。

ingFang SC", Cambria, Cochin, Georgia, Times, "Times New Roman", serif;font-style: normal;font-variant-ligatures: normal;font-variant-caps: normal;font-weight: 400;letter-spacing: 0.75px;orphans: 2;text-align: justify;text-indent: 0px;text-transform: none;widows: 2;word-spacing: 0px;-webkit-text-stroke-width: 0px;white-space: normal;background-color: rgb(255, 255, 255);text-decoration-thickness: initial;text-decoration-style: initial;text-decoration-color: initial;">扩散模型在图像生成领域已经证明了其强大的能力（如 Stable Diffusion、DALL-E），但将其应用于纯文字生成，这算得上是对传统语言模型范式的重大挑战。

ingFang SC", Cambria, Cochin, Georgia, Times, "Times New Roman", serif;font-style: normal;font-variant-ligatures: normal;font-variant-caps: normal;letter-spacing: 0.75px;orphans: 2;text-align: justify;text-indent: 0px;text-transform: none;widows: 2;word-spacing: 0px;-webkit-text-stroke-width: 0px;white-space: normal;background-color: rgb(255, 255, 255);text-decoration-thickness: initial;text-decoration-style: initial;text-decoration-color: initial;">为什么这么快？

ingFang SC", Cambria, Cochin, Georgia, Times, "Times New Roman", serif;font-style: normal;font-variant-ligatures: normal;font-variant-caps: normal;font-weight: 400;letter-spacing: 0.75px;orphans: 2;text-align: justify;text-indent: 0px;text-transform: none;widows: 2;word-spacing: 0px;-webkit-text-stroke-width: 0px;white-space: normal;background-color: rgb(255, 255, 255);text-decoration-thickness: initial;text-decoration-style: initial;text-decoration-color: initial;">传统的自回归语言模型（如 GPT-4、Claude）生成文本的方式是从左到右顺序生成每个标记，类似于人类的写作过程。

ingFang SC", Cambria, Cochin, Georgia, Times, "Times New Roman", serif;font-style: normal;font-variant-ligatures: normal;font-variant-caps: normal;font-weight: 400;letter-spacing: 0.75px;orphans: 2;text-align: justify;text-indent: 0px;text-transform: none;widows: 2;word-spacing: 0px;-webkit-text-stroke-width: 0px;white-space: normal;background-color: rgb(255, 255, 255);text-decoration-thickness: initial;text-decoration-style: initial;text-decoration-color: initial;">也就是模型每多生成一个token，都得先得到其左边所有的token，然后再将所有当前的token 全部送进神经网络，再通过预测得到下一个token.

ingFang SC", Cambria, Cochin, Georgia, Times, "Times New Roman", serif;font-style: normal;font-variant-ligatures: normal;font-variant-caps: normal;font-weight: 400;letter-spacing: 0.75px;orphans: 2;text-align: justify;text-indent: 0px;text-transform: none;widows: 2;word-spacing: 0px;-webkit-text-stroke-width: 0px;white-space: normal;background-color: rgb(255, 255, 255);text-decoration-thickness: initial;text-decoration-style: initial;text-decoration-color: initial;">而 Gemini Diffusion 采用了完全不同的方法：它不是逐个标记生成，而是先将整段文本初始化为「噪声」，然后通过多次迭代，逐步将这些噪声「净化」，最终形成有意义的完整文本。

ingFang SC", Cambria, Cochin, Georgia, Times, "Times New Roman", serif;font-style: normal;font-variant-ligatures: normal;font-variant-caps: normal;font-weight: 400;letter-spacing: 0.75px;orphans: 2;text-align: justify;text-indent: 0px;text-transform: none;widows: 2;word-spacing: 0px;-webkit-text-stroke-width: 0px;white-space: normal;background-color: rgb(255, 255, 255);text-decoration-thickness: initial;text-decoration-style: initial;text-decoration-color: initial;">这种方法带来了显著的性能提升：官方测试数据显示，Gemini Diffusion 每秒能生成约 1500 个token！

比现有的 Gemini 2.0 Flash-Lite 模型快了整整5 倍！

核心能力

据 Google DeepMind 的技术介绍，Gemini Diffusion 具备三大关键优势：

超高响应速度：显著快于谷歌现有的最快模型
更高文本连贯性：能够一次性生成整块标记，而非逐个生成
迭代自我修正：在生成过程中进行错误纠正，确保输出的一致性

特别是对于编程和数学这类需要高度逻辑一致性和多次验证的任务，扩散模型展现出了明显的优势。

@amirkdev 提出了一个有趣的问题：

「对于编程来说，它会不会与自己争论哪种括号风格最好？」

这是一个幽默却也颇有洞察的问题——由于并行生成的特性，扩散模型能够在多个迭代步骤中全局优化整段代码，包括保持一致的编码风格。

性能相当，但快如闪电

值得注意的是，尽管 Gemini Diffusion 采用了全新的生成机制，但在标准基准测试上与 Gemini 2.0 Flash-Lite 的表现相当接近：

基准测试	Gemini Diffusion	Gemini 2.0 Flash-Lite
LiveCodeBench (v6)	30.9%	28.5%
BigCodeBench	45.4%	45.8%
HumanEval	89.6%	90.2%
AIME 2025	23.3%	20.0%

注意：两者性能相当，但 Gemini Diffusion 的速度优势高达 5 倍！

官方提供了详细的基准测试结果：

数据显示 Gemini Diffusion 在大多数指标上与 Gemini 2.0 Flash-Lite 表现相当，且在 AIME 2025（数学）测试上略有优势。

速度突破的技术原理

网友@karthik_dulam 也好奇提问：

「谁能解释为什么扩散语言模型能够快一个数量级？」

那么，为什么扩散模型在文本生成领域能实现数量级的速度提升呢？

据分析，这涉及四个核心技术「加速机制」：

1. 并行解码架构

自回归模型：必须按顺序生成标记，后一个标记依赖前一个的完成。

扩散模型：整句话同时处理，所有位置并行进行噪声去除。

@itsArmanj 给出了推测性的分析：

「帮我理解：如果你让 Transformer 计算二乘三，它会推理出 23=，然后下一个标记是 6。扩散模型如何在形成 23 之前就得出 6？」

事实上，扩散模型不依赖顺序推理，而是在多轮迭代中优化整个序列。

它先生成包含噪声的「候选答案」，然后通过多步去噪过程，确保整个表达式和答案在数学上的一致性。

2. 可调迭代步数

Gemini Diffusion 仅需约12步迭代就能生成高质量文本，而自回归模型处理一个包含1000个标记的段落则需要1000次顺序处理。

3. 高效算子融合

扩散模型采用双向注意力而非单向注意力机制，不需要维护 KV-cache，更适合充分利用 GPU/TPU 的并行计算架构。

@LeeLeepenkman 观察到：

「我们又回到了扩散器和 DIT 块的路线。之前大家都在尝试自回归图像生成，因为 4oimage 采用了这种方式，但当你深入思考或实际尝试时会发现这种方式相当缓慢。通过大规模扩展扩散模型，我们或许能达到这种逻辑和文本精度，就像实现逼真的光照一样。」

通过规模扩展，扩散模型将有可能达到与自回归模型相同的逻辑推理能力和准确性，同时保持其显著的速度优势。

4. 计算资源优化

扩散模型仅在最后一步将输出映射到词表，显著减少了计算开销。

技术路线对比：扩散与自回归的范式之争

维度	扩散语言模型	自回归 Transformer
生成流程	并行：整句初始化为噪声，迭代去噪	串行：逐个标记顺序生成
延迟	约 12 步迭代，与序列长度基本无关	与序列长度呈线性增长
可控性	基于梯度优化，更易实现精确控制	主要依赖 RLHF 和提示工程
成熟度	处于实验阶段，尚需验证	技术成熟，已广泛应用

@TendiesOfWisdom 提出了一个富有启发性的类比：

「科幻电影《降临》中的外星人文字 = 新的扩散语言模型？他们的圆形文字一次性传递完整概念；这些模型并行迭代达成连贯性，抛弃了逐步生成标记的方式。非线性思维与 AI 的下一波浪潮相遇。」

这个比喻倒是有些意思，科幻电影《降临》中外星人的圆形文字能够一次性表达完整概念，扩散语言模型也采用「非线性」方式同步生成整段内容。

跨模态统一的技术趋势

值得关注的是，Google 正将扩散技术统一应用于文本（Gemini Diffusion）、图像（Imagen 4）和视频（Veo 3）三大领域，这显然是在构建一个基于扩散技术的全模态 AI 生态系统。

Google 尚未发布 Gemini Diffusion 的详细技术论文，仅有一篇简单的产品介绍链接：

https://deepmind.google/models/gemini-diffusion/

不过，此前也有相关的技术路线研究，如 Diffusion-LM（Stanford, 2022）和 d1（UCLA & Meta, 2025）等工作。

目前，Gemini Diffusion 仅向有限的合作伙伴开放测试，但 Google 已开放了候补名单供研究者和开发者注册。