好奇个问题,怎么测出来,对sonnet 4.5,有巨大提升? 其实,我好奇的确实是,sonnet 4.5跟 opus的差距不是那么大。从基准测试来说,也是差了3分。 1. 所有榜单,仅供参考。榜单评分靠后的模型,肯定不行;但榜单评分靠前的模型,不一定真行。任何一个榜单,只有在榜单第一次露面的时候有效。因为露面久了,就会有人去针对这个榜单做优化了。我一向为国产模型加油,Artificial Analysis 也是这个世界上最值得尊敬的榜单,以上两者都是事实。但是,你随便找几个认真用AI编程做实际产品的人问问,真的有人认为小米的模型、编程能力比Claude Sonnet 4.5更强吗?2. AI编程出新手村的标志:你能发现各个模型有自己做不到的事情的时候。我们常常看到一些朋友,迷之自信说这些模型其实差不多,用某某模型可以包打天下。这往往说明,他做的任务太简单了。就好比,同一道初中数学题,你分别让小学数学老师、初中数学老师、高中数学老师、大学数学老师、数学家去回答,会怎样? 小学老师回答得不不一定好(也未必),但是其他几位老师回答的答案可能是差不多的。我们不能拿一道初中数学题,去考核数学家的数学能力。同样,我们也无法使用简单的编程任务,去测试出来顶级编程模型之间的能力差异。因此,我们认为,如果你还没发现这些模型之间能力的真实差距,更可能是你做的东西太简单了,你还没出新手村。这里没有歧视的意思,技术的简单,不一定意味着产品不行。技术的复杂,也不一定意味着产品肯定行。 说几个大家耳熟能详的例子 —— 更古早有一个叫做hao123的产品,技术难度低,但是产品很行;去年也有一个“小猫补光灯”,技术难度极低,产品也很行。而我的产品里面,也往往出现技术简单的爆款产品、和技术超复杂的失败产品。说个题外话:我鼓励大家用简单的技术,去做有真需求的产品。3. 一个实用的测试出模型能力的方法:让模型互相评审代码。第一步,找一个综合性比较强的任务,让模型A完成它。(注意,一定要综合性强的任务,这是前提。如果是写什么贪吃蛇、俄罗斯方块、笔记App、天气App,算了吧……)第三步,把模型B的评审结果,发给模型A,看看它是否接受。当然,你也得自己去看,A和B说的东西到底对不对,它们有可能说得都不对。Tips:由于需要操作很多次,对于成熟项目,我们可以开分支来进行,避免破坏现场。有兴趣的朋友可以看看这一篇。复杂需求如何让AI一次写对?面对复杂需求,这是我实战沉淀的Vibe Coding终极SOP 因为我有一些产品用户量已经非常大了,我对模型的测试往往是顺其自然的——新增的功能,本来我就希望各个模型都来提出方案。久而久之,见得多了,就会慢慢发现:某些模型,更能够提出好问题;某些模型,比较囫囵吞枣;某些模型,比较好大喜功;模型模型,更喜欢偷懒;某些模型,长程任务不行但是短任务不错,等等。就像你同时养了5只猫,每只猫的脾气、性格、秉性,处得久了,你才会慢慢发现。下面是两个评审代码的截图,来自Codex和Gemini 3 Pro。可以看出, Codex逻辑能力很强,包括内存泄漏这种问题都能够发现。Gemini 3 Pro输出的内容更偏向视觉建议,真正的逻辑问题,发现得不多。在上面这个类型的测试当中,最近一个月,我的结论是 —— 目前写代码最好的模型是GPT-5.2-codex(xhigh)和Claude Opus 4.5,如果有人说这两个模型能够包打天下,虽然也不尽然,但至少不算离谱。- Codex with GPT-5.2-codex(xhigh)是最强的,它能够最频繁地发现其他模型的代码、自己以前的代码逻辑上的问题。像一个人狠话不多的学霸。
- Claude Opus 4.5虽然在复杂任务中容易遗漏,但是只要经过其他模型评审RFC文档和代码后的提醒,它很倾向于意识到自己的问题,修复自己方案,最终也能够达到很好的效果。像一个略微有点粗心、脾气很好的学霸。Claude Opus 4.5特别适合“和人对需求”,因为它最擅长说人话,用户体验好。
- Gemini 3 Pro 强在前端任务、世界知识,这两者恐怕是世界第一。但是它的逻辑深度一般,很容易囫囵吞枣,长程任务能力也很可疑。
- 除了这3个模型,其他的模型,都是比较容易漏洞百出的,需要想各种办法去弥补。
4. 一个简单、娱乐级的测试出模型能力的方法:让模型从0开始做金门大桥。前面提到,测试模型能力,我们不能用“初中数学题”,我们需要用综合性强的任务。正好我收集了一些综合性强的任务,其中最喜欢的是‘金门大桥’。- 世界知识(得知道金门大桥是啥、长啥样、有些什么细节、各个角度看是什么样)- 物理知识(这是3D的,有物理碰撞、光照反射等)- 代码性能(非常消耗性能,因为细节很多,有内存、帧率、GPU需要管理,有些模型能够组出来效果,但是很卡)完整Prompt如下,你可以直接复制,打开一个空白项目,让各个模型去测试
ObjectiveBuild a visually stunning, high-fidelity 3D voxel-style simulation of the Golden Gate Bridge in Three.js.Prioritize complex visuals (not simple blocks), strong atmosphere depth, and smooth ~60FPS.
Visuals & Atmosphere- Lighting: a Time-of-day slider (0–24h) that controls sun position, intensity, sky color, and fog tint.- Fog: volumetric-feeling fog using lightweight sprite particles; slider 0–100 (0 = crystal clear, 100 = dense but not pure whiteout).- Water: custom shader for waves + specular reflections; blend horizon with distance-based fog (exp2) so the far water merges naturally.- Post: ACES filmic tone mapping + optimized bloom (night lights glow but keep performance).
Scene Details- Bridge: recognizable art-deco towers, main span cables + suspenders, piers/anchors consistent with suspension bridge structure.- Terrain: simple but convincing Marin Headlands + SF side peninsula silhouettes.- Skyline: procedural/instanced city blocks on the SF side to suggest depth.- Traffic: up to ~400 cars via InstancedMesh, properly aligned on the deck (avoid clipping). Headlights/taillights emissive at night.- Ships: a few procedural cargo ships with navigation lights moving across the bay.- Nature: a small flock of animated birds (lightweight flocking).
Night ModeAt night, enable city lights, bridge beacons, street lights, vehicle lights, ship nav lights.
Tech & Controls (Important)- Output MUST be a single self-contained HTML file (e.g., golden_gate_bridge.html) that runs by opening in Chrome.- No build tools (no Vite/Webpack). Pure HTML + JS.- Import Three.js and addons via CDN using ES Modules + importmap.- UI: nice-looking sliders for Time (0–24), Fog Density (0–100), Traffic Density (0–100), Camera Zoom.- Optimization: use InstancedMesh for repeated items (cars/lights/birds), avoid heavy geometry, keep draw calls low.
做完之后,请记得自己玩一玩,放大、旋转,看看细节。各个模型的能力一目了然。这个视频是GPT-5.1-Codex-Max 做的。其实GPT-5.2-Codex和Gemini 3 Pro做得更好,我只是没录视频而已。对了,Gemini 3 Flash做得也比较让人惊喜。
国产模型当中,暂时唯一能够比较顺利做出来的是GLM-4.7,但是仍然需要抽卡,并不一定一次成功、细节也不够多。 下面这是视频,并不是一次成功,而是修了一次。而且当我想再试一次的时候,失败了。- 如果你让Claude Sonnet 4.5和Claude Opus 4.5做金门大桥,你也是可以明显看出来差距的。- 如果做出来之后,再让其他模型帮忙评审一下代码,你对差距的感受就更加强烈了。 |