|
ingFang SC", system-ui, -apple-system, BlinkMacSystemFont, "Helvetica Neue", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;">Google今天发布了Gemini 3,这是自2023年Gemini系列推出以来最重要,也是最受业内期待的升级。经过持续的发力,Google重回王座,AI Overviews现在每月有20亿用户,Gemini应用超过6.5亿月活用户,70%的云客户在使用他们的AI,1300万开发者基于他们的生成模型构建应用。ingFang SC", system-ui, -apple-system, BlinkMacSystemFont, "Helvetica Neue", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;">这些数字说明Google的AI产品已经深度融入用户日常。而Gemini 3的发布,标志着他们要在这个基础上再进一步。 技术突破在哪里 Gemini 3 Pro在主要AI基准测试上全面超越了前代2.5 Pro。 独立评测机构Artificial Analysis已将Gemini 3 Pro评为"全球AI新领导者",在其指数中获得73分,远超Gemini 2.5 Pro的60分。 LMArena排行榜上拿到1501 Elo的突破性分数,在文本推理、视觉理解、编程和网页开发几个核心领域都排名第一。
特别值得注意的是Deep Think模式,在ARC-AGI-2测试中达到45.1%,这个成绩目前领先其他主流模型。Google说这个模式专门处理复杂推理问题,但需要更多安全评估,几周后才向Ultra订阅用户开放。 实际能做什么 Google展示了几个用例场景,比之前的演示更具体。 学习方面,Gemini 3能解读不同语言的手写食谱,生成可分享的家庭食谱书。给它学术论文或长视频,它能生成交互式学习卡片、可视化图表。甚至能分析你打匹克球的视频,指出动作问题并制定训练计划。 开发方面,它支持零样本生成,能处理复杂提示并渲染更丰富的交互式Web界面。Google称其为"最佳vibe coding模型",已集成到AI Studio、Vertex AI、Gemini CLI等平台,第三方平台如Cursor、GitHub、JetBrains等也支持。 规划方面,模型在Vending-Bench 2测试中表现出色。这个测试模拟管理自动售货机业务一整年,要求模型保持一致的工具使用和决策,不能偏离任务。Gemini 3 Pro在这方面比其他前沿模型产生了更高回报。 Antigravity:不只是编程工具 基于Gemini 3 Pro,Google还推出了Antigravity开发平台。它的特点不在写代码速度,而是解决AI可信度问题。 每完成一个任务,工具会自动生成"工作痕迹"(Artifacts)——任务清单、执行计划、过程截图,甚至浏览器录屏。这些不是给机器看的日志,而是给人看的工作证据。 Google的逻辑很直接:与其让开发者猜测AI在做什么,不如让AI直接展示工作过程。 工具提供两种模式:编辑器视图类似传统IDE,经理视图可以同时管理多个AI代理,Google称之为"任务控制中心"。除了Gemini 3 Pro,还集成了Gemini 2.5 Computer Use模型和图像编辑模型Nano Banana。 演示中,Antigravity构建了一个航班追踪应用,独立完成规划、编码和验证,最后用浏览器录屏展示结果。 搜索体验升级 这次是Google首次在产品发布当天就将新模型集成到搜索中。AI模式现在使用Gemini 3,能生成沉浸式视觉布局和交互工具,完全基于用户查询实时生成。 比如搜索复杂话题时,不只是文本回答,还能生成相关的计算器、图表或其他交互组件。这种"生成式UI"体验是个新尝试。 定价和可用性 API预览版定价: - 200k tokens内:输入$2/百万token,输出$12/百万token
- 超过200k tokens:输入$4/百万token,输出$18/百万token
模型现在已在多个平台上线: - 开发者:AI Studio、Vertex AI、Gemini CLI、Antigravity
- 企业:Vertex AI和Gemini Enterprise
Antigravity免费试用,支持Windows、macOS和Linux,限流每5小时重置。除了Gemini 3 Pro,还支持Claude Sonnet 4.5和OpenAI的GPT-OSS。 安全考量 Google表示这是他们最安全的模型,经过了最全面的安全评估。模型减少了奉承性(不再只说用户爱听的),增强了对提示注入的抵抗力,改善了防滥用保护。 他们与英国AISI等机构合作进行评估,还获得了Apollo、Vaultis、Dreadnode等行业专家的独立评估。 实际意义 从数据看,这次升级确实不小。特别是推理能力和多模态理解的提升比较明显。Antigravity的透明度思路也挺有意思,直接解决了AI工具的信任问题。 但更重要的可能是Google的产品整合能力。从搜索到开发工具,再到移动应用,他们能在产品发布当天就实现全平台部署。这种规模优势是其他AI公司很难复制的。 AI竞争进入了新阶段,不只是比拼模型性能,更是比拼产品整合和用户体验,这对于Google这样的平台型公司来讲是巨大的优势,新一轮的入口卡位战已经开启,这将比移动互联网卡位更加惨烈,过去若干个APP可以分享不同领域,现在有AI一个APP一个入口足以,其它都将沦为管道。 总的来说,Google这次没有翻车,算是交出了一份不错的答卷。 |