|
老实讲,我应该是这两年最不兴奋的人群之一: 谁家又说自己“史上最强模型”,我基本当背景噪音。 但是X算是被一大堆KOL刷屏了......还是得看看 但这次看完 Gemini 3 Pro 的数据,我的感受是: OK,确实往前推了一格,不是换个名字继续炒冷饭。 原因很简单——有几组数字,挺夸张的。 数字 1:人类终极考试,拉开 10 个百分点有个在圈内很火的 benchmark,叫Humanity’s Last Exam(HLE), 就是搞一套跨学科、2500 道难题,看模型综合推理能力。 同一张卷子,拉开10 个百分点+,这不是“略好一点”, 这是从“能勉强及格”到“班里前几名”的差距。 -------------------------------------- 数字 2:第一次有模型,把“少瞎编”做进 70%+Google 自己给了一个很关键的指标:SimpleQA Verified, 简单理解就是:拿一堆事实问题来问,看谁胡说八道少。 同一套题上,大致是这样: Gemini 3 Pro:72.1% Gemini 2.5 Pro:54.5% GPT-5.1:34.9% Claude Sonnet 4.5:29.3%
什么意思? 就是别人还在及格线附近徘徊的时候,它已经跑到“优秀线”了。 而且重点是:这是“事实正确率”,直接关系到你敢不敢让它上生产。 --------------------------------------- 数字 3:不是写作文,是帮你跑生意还有一个很有意思的测试,叫Vending-Bench 2: 让模型自己当“运营经理”, 给它一台自动售货机,看它怎么选品、定价、补货,最后赚多少钱。 Gemini 3 Pro:大约 $5,500 利润 Claude Sonnet 4.5:大约 $3,800 其它主流模型:普遍更低
这是第一次有模型在这种“长周期、有反馈的业务题”上拉开这么大差距。 它不是帮你写一篇《如何提高售货机利润》的作文, 而是直接帮你把售货机跑得更赚钱。 这三组数字背后的共通点,其实就是三个字: 会推理(HLE) 少瞎编(SimpleQA) 能赚钱(Vending-Bench)
这三条线,基本就是现在企业看 AI 的三根神经。
我做了一个测试(生成一个2个仿站测试屈从性) 由于提示词简单 css效果只能说80分,但是但凡你用过cursor qcode这样的编程工具做仿站就知道已经有多好了审美不是一个档次的,其次注意看最后一张图的鼠标悬浮动效也做了1:1的还原这是之前模型完全做不到的 第二个测试一句话做一款游戏测试(用时不到60s) 仅仅一句不超过40字的prompt 用了不到60s 生成的完整性和设计感秒杀过往所有 不知道用什么话来表达震惊了...自己看吧好产品会自己说话
三、冷静一点:这些数字,跟普通人和企业到底有什么关系?对普通人:喊“最强模型”的时代快结束了 先说一个现实: 所以离“通用智能”,还远着呢。 但在日常使用维度上,有两个变化对你是实打实有感的: 事实正确率从 30% → 70%
你免费用到的默认模型,整体档次被抬高了 对 C 端来说,这一轮的核心不是“多了个玩具”, 而是“你每天用的东西,背后那台发动机被换掉了”。
对企业:真正要盯的,是三件非常无聊但要命的事 这也是我最想说的部分。 我越来越觉得,决定 AI 能不能跑起来的,其实是下面这三点:
① 数据干不干净 Gemini 3 能把 SimpleQA 做到 72%+、能处理 1M 上下文, 本质上都假设了一件事:你给的数据至少是干净、统一的。 但现实里,很多公司连: 这些事都说不清。 这种环境下谈什么 “RAG”“Agent”,基本是刷 PPT。
② 流程画得清不清楚 Google 在 Search 里干的事,其实就是: 把“用户一句话 → 拆成多条查询 → 整合网页内容 → 生成回答” 这整条链条画出来,再用更强的模型优化每一环。
你可以对照一下你自己的业务: 如果没有, 那再强的 Agent 也只能在那边“帮你想想”, 落不到“真正执行”。
③ 有没有人愿意为这套东西掏钱 看 Google 自己吹的点就知道,他们第一波用 Gemini 3 做的事: 一句话:要么直接多赚钱,要么直接省人力。 所以对企业来说,真正有价值的问题不是: “我们要不要上 Gemini 3?”
而是: “我们有没有哪条流程,强到值得用 Gemini 3 来撑?”
如果答案是“没有”——那问题不在模型,在你的业务。
网站入口:https://aistudio.google.com/ code开发点击 Vibe code GenAl apps -------------------------------------- 说句实话,我对“大模型又升级了”这类新闻,已经快听不出兴奋感了。 但这次看完 Gemini 3 Pro 的这些数字,我有两个很强的感觉: 一个是:技术这边的进度条,已经不太需要我们普通人操心了。 另一个是:真正会掉队的,接下来是那批还在讨论“做不做 AI”,而不是“怎么把自己的业务拆给 AI 做”的人。 如果你是个人用户,现在最划算的动作,就是盘点一下: 你手上有哪些“长链、重复、但需要一点判断力”的任务,可以扔给它。 如果你是企业老板或产品负责人,我建议你先做一件非常无聊但有效的事: 把你们公司里最赚钱、又最费人的三个流程画出来。 然后认真想一想: 当一个模型已经能拿 70% 的事实题、30% 的抽象题, 还能自己跑一台自动售货机的时候, 你到底还要人在哪些环节站岗?
这次 Gemini 3 Pro 给我们的,不只是一个“更聪明的聊天对象”, 而是一个非常直接的问题: 当工具已经强成这样了,再不动的那部分, 究竟是技术的限制,还是我们自己的惰性?
|