赶在GPT-5之前，谷歌的Gemini 2.5 Ultra上线了！

显示全部楼层

刚刚，千呼万唤的谷歌的Gemini 2.5 Deep Think终于上线了。Gemini 2.5 Deep Think是基于谷歌最强的模型Gemini 2.5打造的Deep Think升级版本，之前这个版本在2025届国际数学奥林匹克竞赛（2025 IMO）中达到了“金牌水准”。

不过这次上线的版本并不是在 2025 IMO 获得金牌的版本，而是一个新的迭代版本，虽然该版本需要数小时来推理复杂的数学问题，但它相比金牌版本在日常使用中更快、更易用，同时在内部评估中仍可达到 2025 IMO 基准的铜牌水平。简单来说，就是这个新版本性能降级了，但是更快了，也更适合日常任务。新版本在Gemini app中向 Google AI Ultra 订阅者开放，而金牌版本只向部分数学家和学者开放。

Gemini 2.5 Deep Think 可以看成是 Gemini 2.5 系列中的增强推理模型，它采用并行思维与强化学习技术，能够同时测试多种假设。它支持输入文本、图像、音频与视频，而且支持 100 万 tokens 上下文窗口，最多可输出 19.2 万 tokens。

正如人们在面对复杂问题时会花时间多角度探索、权衡方案并完善最终答案，Deep Think 通过并行思维技术拓展了思考能力的边界。该方法让 Gemini 能同时生成并考量多种思路，甚至随着时间推移修订或融合不同想法，最终得出最佳答案。此外，通过延长推理时间或“思考时间”，可以为 Gemini 提供更多空间探索不同假设，从而得出复杂问题的创造性解决方案。而且谷歌还开发了全新的强化学习技术，鼓励模型利用这些扩展的推理路径，使 Deep Think 随着时间推移成为更出色、更直观的问题解决者。

Deep Think 可帮助人们解决需要创造力、战略规划和逐步改进的问题。

例如迭代开发与设计任务，在需要逐步构建复杂任务的场景中，Deep Think 有更好的表现。对于为一座超现实宝塔的复杂动画编写HTML代码这个任务，使用速度快的 2.5 Flash 时，你会获得快速、简洁的结果，而标准的 2.5 Pro 请求则会提供更详细、更复杂的响应。但若启用 Deep Think，Gemini 会运用多线程并行思维推演各种可能性，最终生成精细度与复杂度显著提升的输出内容。

Deep Think也适合科学与数学发现：由于其能推理高度复杂的问题，Deep Think 可成为研究人员的强大工具。它可帮助构建并探索数学猜想，或梳理复杂的科学文献，有望加速发现进程。

此外也可以用于算法开发与编程：Deep Think 在处理需要问题建模、权衡复杂度与时效性的高难度编程问题方面表现尤为突出。

Deep Think 的表现也体现在衡量编程、科学、知识与推理能力的挑战性基准测试中。例如，在不使用工具的情况下，Gemini 2.5 Deep Think 在 LiveCodeBench V6（衡量编程竞赛表现）和 Humanity’s Last Exam（涵盖科学与数学等领域的权威基准）均达到了顶尖水准，超过OpenAI的o3以及xAI的Grok 4。

那么Gemini 2.5 Deep Think到底效果怎么样呢？我只有Gemini Pro会员，没有Ultra会员，没办法直接测试。但是看网上有人测试了一个经典例子：“生成一只骑自行车的鹈鹕的SVG”。Gemini 2.5 Deep Think的生成效果如下所示：

而之前有人也用这个测试了OpenAI即将要发布的GPT-5，效果如下所示：

感觉这个例子Gemini 2.5 Deep Think表现更好一些。

谷歌赶在OpenAI发布GPT-5之前上线最强推理模型Gemini 2.5 Deep Think，应该是要“阻击OpenAI”！