返回顶部
热门问答 更多热门问答
技术文章 更多技术文章

谷歌深夜炸场:Gemini 2.5 震撼发布!号称世界最强“思考型”AI,各种测试大幅领先

[复制链接]
链载Ai 显示全部楼层 发表于 4 小时前 |阅读模式 打印 上一主题 下一主题


ingFang SC", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;font-size: 14px;letter-spacing: 0.1em;color: rgb(63, 63, 63);">谷歌 DeepMind 正式推出了他们迄今为止最智能的AI模型——ingFang SC", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;font-size: inherit;color: rgb(183, 110, 121);">Gemini 2.5。这次发布的第一个版本是ingFang SC", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;font-size: inherit;color: rgb(183, 110, 121);">Gemini 2.5 Pro 实验版 (Experimental),谷歌称其为“思考型模型”,在多个主流基准测试中实现了大幅领先,尤其在推理和代码能力上表现惊人

ingFang SC", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;padding-left: 8px;color: rgb(63, 63, 63);">划重点

ingFang SC", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;font-size: 14px;letter-spacing: 0.1em;color: rgb(63, 63, 63);">谷歌长期探索提升AI推理能力的方法,比如强化学习(RL)和思维链(Chain-of-Thought)提示。之前的 Gemini 2.0 Flash Thinking 是首次尝试,而ingFang SC", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;font-size: inherit;color: rgb(183, 110, 121);">Gemini 2.5 通过显著增强的基础模型和改进的后训练技术,将这种“思考”能力提升到了新高度,并直接内建到模型中。这意味着未来的谷歌模型将能更好地处理复杂问题,支持更强大的、具备上下文感知能力的AI智能体(Agents)

ingFang SC", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;padding-left: 8px;color: rgb(63, 63, 63);">Gemini 2.5 Pro 实验版:性能炸裂,直接看数据!

ingFang SC", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;font-size: 14px;letter-spacing: 0.1em;color: rgb(63, 63, 63);">这次的 2.5 Pro 实验版绝非浪得虚名,它在衡量人类偏好的ingFang SC", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;font-size: inherit;color: rgb(183, 110, 121);">LMArena 排行榜上直接登顶,且优势显著,显示出其强大的能力和高质量的输出风格

ingFang SC", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;font-size: 14px;letter-spacing: 0.1em;color: rgb(63, 63, 63);">以下是它在多个关键基准测试中的单次尝试(pass@1)成绩,对比了包括 OpenAI、Anthropic、Grok、DeepSeek 等友商模型(数据来源为谷歌官方及第三方榜单):

核心亮点解读:

超强推理:在GPQA、AIME 2025 等高难度推理基准上表现卓越。特别是Humanity's Last Exam 无工具 18.8%的成绩

高级编码:相比 2.0 有巨大飞跃,擅长创建视觉效果好的Web应用、代码智能体应用、代码转换和编辑。在行业标准SWE-Bench Verified 上,使用自定义智能体设置达到 63.8%

继承并强化 Gemini 优势

  • 原生多模态:依然能理解文本、音频、图像、视频甚至代码库。
  • 超长上下文窗口发布即支持 100 万 token,性能优于前代,即将支持 200 万 token!处理海量数据和复杂信息源的能力更强

实测

我用三个提示测试了一下Gemini 2.5 Pro 的前端代码能力表现,总体感觉仅就前端来看Gemini 2.5 Pro不如deepseek v3 最新版,缺少了一些细节

提示1:帮我制作一个赛博朋克贪吃蛇游戏,在单个HTML中运行

Gemini 2.5 实现效果

作为对比,这是deepseek v3 0324

提示2:Create a single HTML file containing CSS and JavaScript to generate an animated weather card. The card should visually represent the following weather conditions with distinct animations: Wind: (e.g., moving clouds, swaying trees, or wind lines) Rain: (e.g., falling raindrops, puddles forming) Sun: (e.g., shining rays, bright background) Snow: (e.g., falling snowflakes, snow accumulating) Show all the weather card side by side The card should have a dark background. Provide all the HTML, CSS, and JavaScript code within this single file. The JavaScript should include a way to switch between the different weather conditions (e.g., a function or a set of buttons) to demonstrate the animations for each

Gemini 2.5 实现效果:

deepseek v3 0324 实现效果

提示3:模拟一个太阳系行星运动,在单个HTML中运行

Gemini 2.5 实现效果


deepseek v3 0324 实现效果


如何体验

Gemini 2.5 Pro 实验版现在已经可以在以下平台体验

Google AI Studio:开发者和企业用户可以立即开始试验

Gemini App (桌面和移动端):Gemini Advanced 用户可以在模型下拉菜单中选择。

此外,未来几周内

  • • 将登陆Vertex AI平台。
  • • 将公布定价,并提供更高的速率限制,方便规模化生产使用

回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

链载AI是专业的生成式人工智能教程平台。提供Stable Diffusion、Midjourney AI绘画教程,Suno AI音乐生成指南,以及Runway、Pika等AI视频制作与动画生成实战案例。从提示词编写到参数调整,手把手助您从入门到精通。
  • 官方手机版

  • 微信公众号

  • 商务合作

  • Powered by Discuz! X3.5 | Copyright © 2025-2025. | 链载Ai
  • 桂ICP备2024021734号 | 营业执照 | |广西笔趣文化传媒有限公司|| QQ