ingFang SC", Cambria, Cochin, Georgia, Times, "Times New Roman", serif;font-style: normal;font-variant-ligatures: normal;font-variant-caps: normal;font-weight: 400;letter-spacing: 0.75px;orphans: 2;text-align: justify;text-indent: 0px;text-transform: none;widows: 2;word-spacing: 0px;-webkit-text-stroke-width: 0px;white-space: normal;background-color: rgb(255, 255, 255);text-decoration-thickness: initial;text-decoration-style: initial;text-decoration-color: initial;">谷歌推出革命性文本扩散技术!ingFang SC", Cambria, Cochin, Georgia, Times, "Times New Roman", serif;font-style: normal;font-variant-ligatures: normal;font-variant-caps: normal;font-weight: 400;letter-spacing: 0.75px;orphans: 2;text-align: justify;text-indent: 0px;text-transform: none;widows: 2;word-spacing: 0px;-webkit-text-stroke-width: 0px;white-space: normal;background-color: rgb(255, 255, 255);text-decoration-thickness: initial;text-decoration-style: initial;text-decoration-color: initial;">你可能没注意的是,Google DeepMind 在 I/O 2025 上发布了一个重磅实验性模型——Gemini Diffusion! ingFang SC", Cambria, Cochin, Georgia, Times, "Times New Roman", serif;font-style: normal;font-variant-ligatures: normal;font-variant-caps: normal;font-weight: 400;letter-spacing: 0.75px;orphans: 2;text-align: justify;text-indent: 0px;text-transform: none;widows: 2;word-spacing: 0px;-webkit-text-stroke-width: 0px;white-space: normal;background-color: rgb(255, 255, 255);text-decoration-thickness: initial;text-decoration-style: initial;text-decoration-color: initial;">一个将扩散(diffusion)技术用于文本生成的全新尝试!ingFang SC", Cambria, Cochin, Georgia, Times, "Times New Roman", serif;font-style: normal;font-variant-ligatures: normal;font-variant-caps: normal;font-weight: 400;letter-spacing: 0.75px;orphans: 2;text-align: justify;text-indent: 0px;text-transform: none;widows: 2;word-spacing: 0px;-webkit-text-stroke-width: 0px;white-space: normal;background-color: rgb(255, 255, 255);text-decoration-thickness: initial;text-decoration-style: initial;text-decoration-color: initial;">这或许是一个意义重大的技术突破。ingFang SC", Cambria, Cochin, Georgia, Times, "Times New Roman", serif;font-style: normal;font-variant-ligatures: normal;font-variant-caps: normal;font-weight: 400;letter-spacing: 0.75px;orphans: 2;text-align: justify;text-indent: 0px;text-transform: none;widows: 2;word-spacing: 0px;-webkit-text-stroke-width: 0px;white-space: normal;background-color: rgb(255, 255, 255);text-decoration-thickness: initial;text-decoration-style: initial;text-decoration-color: initial;">扩散模型在图像生成领域已经证明了其强大的能力(如 Stable Diffusion、DALL-E),但将其应用于纯文字生成,这算得上是对传统语言模型范式的重大挑战。ingFang SC", Cambria, Cochin, Georgia, Times, "Times New Roman", serif;font-style: normal;font-variant-ligatures: normal;font-variant-caps: normal;letter-spacing: 0.75px;orphans: 2;text-align: justify;text-indent: 0px;text-transform: none;widows: 2;word-spacing: 0px;-webkit-text-stroke-width: 0px;white-space: normal;background-color: rgb(255, 255, 255);text-decoration-thickness: initial;text-decoration-style: initial;text-decoration-color: initial;">为什么这么快?ingFang SC", Cambria, Cochin, Georgia, Times, "Times New Roman", serif;font-style: normal;font-variant-ligatures: normal;font-variant-caps: normal;font-weight: 400;letter-spacing: 0.75px;orphans: 2;text-align: justify;text-indent: 0px;text-transform: none;widows: 2;word-spacing: 0px;-webkit-text-stroke-width: 0px;white-space: normal;background-color: rgb(255, 255, 255);text-decoration-thickness: initial;text-decoration-style: initial;text-decoration-color: initial;">传统的自回归语言模型(如 GPT-4、Claude)生成文本的方式是从左到右顺序生成每个标记,类似于人类的写作过程。ingFang SC", Cambria, Cochin, Georgia, Times, "Times New Roman", serif;font-style: normal;font-variant-ligatures: normal;font-variant-caps: normal;font-weight: 400;letter-spacing: 0.75px;orphans: 2;text-align: justify;text-indent: 0px;text-transform: none;widows: 2;word-spacing: 0px;-webkit-text-stroke-width: 0px;white-space: normal;background-color: rgb(255, 255, 255);text-decoration-thickness: initial;text-decoration-style: initial;text-decoration-color: initial;">也就是模型每多生成一个token,都得先得到其左边所有的token,然后再将所有当前的token 全部送进神经网络,再通过预测得到下一个token.ingFang SC", Cambria, Cochin, Georgia, Times, "Times New Roman", serif;font-style: normal;font-variant-ligatures: normal;font-variant-caps: normal;font-weight: 400;letter-spacing: 0.75px;orphans: 2;text-align: justify;text-indent: 0px;text-transform: none;widows: 2;word-spacing: 0px;-webkit-text-stroke-width: 0px;white-space: normal;background-color: rgb(255, 255, 255);text-decoration-thickness: initial;text-decoration-style: initial;text-decoration-color: initial;">而 Gemini Diffusion 采用了完全不同的方法:它不是逐个标记生成,而是先将整段文本初始化为「噪声」,然后通过多次迭代,逐步将这些噪声「净化」,最终形成有意义的完整文本。ingFang SC", Cambria, Cochin, Georgia, Times, "Times New Roman", serif;font-style: normal;font-variant-ligatures: normal;font-variant-caps: normal;font-weight: 400;letter-spacing: 0.75px;orphans: 2;text-align: justify;text-indent: 0px;text-transform: none;widows: 2;word-spacing: 0px;-webkit-text-stroke-width: 0px;white-space: normal;background-color: rgb(255, 255, 255);text-decoration-thickness: initial;text-decoration-style: initial;text-decoration-color: initial;">这种方法带来了显著的性能提升:官方测试数据显示,Gemini Diffusion 每秒能生成约 1500 个token!比现有的 Gemini 2.0 Flash-Lite 模型快了整整5 倍! 核心能力据 Google DeepMind 的技术介绍,Gemini Diffusion 具备三大关键优势: 更高文本连贯性:能够一次性生成整块标记,而非逐个生成 迭代自我修正:在生成过程中进行错误纠正,确保输出的一致性
特别是对于编程和数学这类需要高度逻辑一致性和多次验证的任务,扩散模型展现出了明显的优势。 @amirkdev 提出了一个有趣的问题: 「对于编程来说,它会不会与自己争论哪种括号风格最好?」
这是一个幽默却也颇有洞察的问题——由于并行生成的特性,扩散模型能够在多个迭代步骤中全局优化整段代码,包括保持一致的编码风格。 性能相当,但快如闪电值得注意的是,尽管 Gemini Diffusion 采用了全新的生成机制,但在标准基准测试上与 Gemini 2.0 Flash-Lite 的表现相当接近: 注意:两者性能相当,但 Gemini Diffusion 的速度优势高达 5 倍! 官方提供了详细的基准测试结果: 数据显示 Gemini Diffusion 在大多数指标上与 Gemini 2.0 Flash-Lite 表现相当,且在 AIME 2025(数学)测试上略有优势。 速度突破的技术原理网友@karthik_dulam 也好奇提问: 「谁能解释为什么扩散语言模型能够快一个数量级?」
那么,为什么扩散模型在文本生成领域能实现数量级的速度提升呢? 据分析,这涉及四个核心技术「加速机制」: 1. 并行解码架构自回归模型:必须按顺序生成标记,后一个标记依赖前一个的完成。 扩散模型:整句话同时处理,所有位置并行进行噪声去除。 @itsArmanj 给出了推测性的分析: 「帮我理解:如果你让 Transformer 计算二乘三,它会推理出 23=,然后下一个标记是 6。扩散模型如何在形成 23 之前就得出 6?」
事实上,扩散模型不依赖顺序推理,而是在多轮迭代中优化整个序列。 它先生成包含噪声的「候选答案」,然后通过多步去噪过程,确保整个表达式和答案在数学上的一致性。 2. 可调迭代步数Gemini Diffusion 仅需约12步迭代就能生成高质量文本,而自回归模型处理一个包含1000个标记的段落则需要1000次顺序处理。 3. 高效算子融合扩散模型采用双向注意力而非单向注意力机制,不需要维护 KV-cache,更适合充分利用 GPU/TPU 的并行计算架构。 @LeeLeepenkman 观察到: 「我们又回到了扩散器和 DIT 块的路线。之前大家都在尝试自回归图像生成,因为 4oimage 采用了这种方式,但当你深入思考或实际尝试时会发现这种方式相当缓慢。通过大规模扩展扩散模型,我们或许能达到这种逻辑和文本精度,就像实现逼真的光照一样。」
通过规模扩展,扩散模型将有可能达到与自回归模型相同的逻辑推理能力和准确性,同时保持其显著的速度优势。 4. 计算资源优化扩散模型仅在最后一步将输出映射到词表,显著减少了计算开销。 技术路线对比:扩散与自回归的范式之争 | 扩散语言模型 | 自回归 Transformer |
|---|
| 生成流程 | | | | 延迟 | | | | 可控性 | | | | 成熟度 | | |
@TendiesOfWisdom 提出了一个富有启发性的类比: 「科幻电影《降临》中的外星人文字 = 新的扩散语言模型?他们的圆形文字一次性传递完整概念;这些模型并行迭代达成连贯性,抛弃了逐步生成标记的方式。非线性思维与 AI 的下一波浪潮相遇。」
这个比喻倒是有些意思,科幻电影《降临》中外星人的圆形文字能够一次性表达完整概念,扩散语言模型也采用「非线性」方式同步生成整段内容。 跨模态统一的技术趋势值得关注的是,Google 正将扩散技术统一应用于文本(Gemini Diffusion)、图像(Imagen 4)和视频(Veo 3)三大领域,这显然是在构建一个基于扩散技术的全模态 AI 生态系统。 Google 尚未发布 Gemini Diffusion 的详细技术论文,仅有一篇简单的产品介绍链接: https://deepmind.google/models/gemini-diffusion/ 不过,此前也有相关的技术路线研究,如 Diffusion-LM(Stanford, 2022)和 d1(UCLA & Meta, 2025)等工作。 目前,Gemini Diffusion 仅向有限的合作伙伴开放测试,但 Google 已开放了候补名单供研究者和开发者注册。 |