链载Ai

标题: Gemini 3 Pro 发布了:这一次,Google 终于端出了一盘“真菜” [打印本页]

作者: 链载Ai    时间: 昨天 22:38
标题: Gemini 3 Pro 发布了:这一次,Google 终于端出了一盘“真菜”

老实讲,我应该是这两年最不兴奋的人群之一:
谁家又说自己“史上最强模型”,我基本当背景噪音。

但是X算是被一大堆KOL刷屏了......还是得看看

但这次看完 Gemini 3 Pro 的数据,我的感受是:
OK,确实往前推了一格,不是换个名字继续炒冷饭。

原因很简单——有几组数字,挺夸张的。

数字 1:人类终极考试,拉开 10 个百分点

有个在圈内很火的 benchmark,叫Humanity’s Last Exam(HLE)
就是搞一套跨学科、2500 道难题,看模型综合推理能力。

同一张卷子,拉开10 个百分点+,这不是“略好一点”,
这是从“能勉强及格”到“班里前几名”的差距。

--------------------------------------

数字 2:第一次有模型,把“少瞎编”做进 70%+

Google 自己给了一个很关键的指标:SimpleQA Verified
简单理解就是:拿一堆事实问题来问,看谁胡说八道少。

同一套题上,大致是这样:

什么意思?
就是别人还在及格线附近徘徊的时候,它已经跑到“优秀线”了。
而且重点是:这是“事实正确率”,直接关系到你敢不敢让它上生产。

---------------------------------------

数字 3:不是写作文,是帮你跑生意

还有一个很有意思的测试,叫Vending-Bench 2
让模型自己当“运营经理”,
给它一台自动售货机,看它怎么选品、定价、补货,最后赚多少钱。

这是第一次有模型在这种“长周期、有反馈的业务题”上拉开这么大差距。
它不是帮你写一篇《如何提高售货机利润》的作文,
而是直接帮你把售货机跑得更赚钱。

这三组数字背后的共通点,其实就是三个字:

这三条线,基本就是现在企业看 AI 的三根神经。


我做了一个测试(生成一个2个仿站测试屈从性)

由于提示词简单 css效果只能说80分,但是但凡你用过cursor qcode这样的编程工具做仿站就知道已经有多好了审美不是一个档次的,其次注意看最后一张图的鼠标悬浮动效也做了1:1的还原这是之前模型完全做不到的

第二个测试一句话做一款游戏测试(用时不到60s)

仅仅一句不超过40字的prompt 用了不到60s

生成的完整性和设计感秒杀过往所有

不知道用什么话来表达震惊了...自己看吧好产品会自己说话



三、冷静一点:这些数字,跟普通人和企业到底有什么关系?

对普通人:

喊“最强模型”的时代快结束了

先说一个现实:

所以离“通用智能”,还远着呢。
但在日常使用维度上,有两个变化对你是实打实有感的:

  1. 事实正确率从 30% → 70%






欢迎光临 链载Ai (https://www.lianzai.com/) Powered by Discuz! X3.5