别再看榜单了！普通人也可以测出了各大编程模型真实差距

显示全部楼层

在一些AI编码群里，有朋友问我：

好奇个问题，怎么测出来，对sonnet 4.5，有巨大提升？
其实，我好奇的确实是，sonnet 4.5跟 opus的差距不是那么大。从基准测试来说，也是差了3分。

这是一个好问题。

这里分享一下我的观点：

1. 所有榜单，仅供参考。榜单评分靠后的模型，肯定不行；但榜单评分靠前的模型，不一定真行。

榜单前三常常测不出差距，只有综合题能拉开差距。

任何一个榜单，只有在榜单第一次露面的时候有效。因为露面久了，就会有人去针对这个榜单做优化了。

我一向为国产模型加油，Artificial Analysis 也是这个世界上最值得尊敬的榜单，以上两者都是事实。

但是，你随便找几个认真用AI编程做实际产品的人问问，真的有人认为小米的模型、编程能力比Claude Sonnet 4.5更强吗？

2. AI编程出新手村的标志：你能发现各个模型有自己做不到的事情的时候。

我们常常看到一些朋友，迷之自信说这些模型其实差不多，用某某模型可以包打天下。这往往说明，他做的任务太简单了。

就好比，同一道初中数学题，你分别让小学数学老师、初中数学老师、高中数学老师、大学数学老师、数学家去回答，会怎样？小学老师回答得不不一定好(也未必)，但是其他几位老师回答的答案可能是差不多的。

我们不能拿一道初中数学题，去考核数学家的数学能力。同样，我们也无法使用简单的编程任务，去测试出来顶级编程模型之间的能力差异。

因此，我们认为，如果你还没发现这些模型之间能力的真实差距，更可能是你做的东西太简单了，你还没出新手村。

这里没有歧视的意思，技术的简单，不一定意味着产品不行。技术的复杂，也不一定意味着产品肯定行。说几个大家耳熟能详的例子 —— 更古早有一个叫做hao123的产品，技术难度低，但是产品很行；去年也有一个“小猫补光灯”，技术难度极低，产品也很行。

而我的产品里面，也往往出现技术简单的爆款产品、和技术超复杂的失败产品。

说个题外话：我鼓励大家用简单的技术，去做有真需求的产品。

3. 一个实用的测试出模型能力的方法：让模型互相评审代码。

流程是这样的

第一步，找一个综合性比较强的任务，让模型A完成它。（注意，一定要综合性强的任务，这是前提。如果是写什么贪吃蛇、俄罗斯方块、笔记App、天气App，算了吧……）

第二步，让模型B对代码进行评审。

第三步，把模型B的评审结果，发给模型A，看看它是否接受。当然，你也得自己去看，A和B说的东西到底对不对，它们有可能说得都不对。

第四步，反过来操作。

Tips：由于需要操作很多次，对于成熟项目，我们可以开分支来进行，避免破坏现场。

有兴趣的朋友可以看看这一篇。复杂需求如何让AI一次写对？面对复杂需求，这是我实战沉淀的Vibe Coding终极SOP

因为我有一些产品用户量已经非常大了，我对模型的测试往往是顺其自然的——新增的功能，本来我就希望各个模型都来提出方案。久而久之，见得多了，就会慢慢发现：某些模型，更能够提出好问题；某些模型，比较囫囵吞枣；某些模型，比较好大喜功；模型模型，更喜欢偷懒；某些模型，长程任务不行但是短任务不错，等等。

就像你同时养了5只猫，每只猫的脾气、性格、秉性，处得久了，你才会慢慢发现。

下面是两个评审代码的截图，来自Codex和Gemini 3 Pro。

可以看出， Codex逻辑能力很强，包括内存泄漏这种问题都能够发现。Gemini 3 Pro输出的内容更偏向视觉建议，真正的逻辑问题，发现得不多。

在上面这个类型的测试当中，最近一个月，我的结论是 —— 目前写代码最好的模型是GPT-5.2-codex(xhigh)和Claude Opus 4.5，如果有人说这两个模型能够包打天下，虽然也不尽然，但至少不算离谱。

Codex with GPT-5.2-codex(xhigh)是最强的，它能够最频繁地发现其他模型的代码、自己以前的代码逻辑上的问题。像一个人狠话不多的学霸。
Claude Opus 4.5虽然在复杂任务中容易遗漏，但是只要经过其他模型评审RFC文档和代码后的提醒，它很倾向于意识到自己的问题，修复自己方案，最终也能够达到很好的效果。像一个略微有点粗心、脾气很好的学霸。Claude Opus 4.5特别适合“和人对需求”，因为它最擅长说人话，用户体验好。
Gemini 3 Pro 强在前端任务、世界知识，这两者恐怕是世界第一。但是它的逻辑深度一般，很容易囫囵吞枣，长程任务能力也很可疑。
除了这3个模型，其他的模型，都是比较容易漏洞百出的，需要想各种办法去弥补。

4. 一个简单、娱乐级的测试出模型能力的方法：让模型从0开始做金门大桥。

前面提到，测试模型能力，我们不能用“初中数学题”，我们需要用综合性强的任务。

正好我收集了一些综合性强的任务，其中最喜欢的是‘金门大桥’。

这个任务的综合性在于，它同时需要

- 世界知识（得知道金门大桥是啥、长啥样、有些什么细节、各个角度看是什么样）

- 复杂前端编码能力（这是3D的）

- 物理知识（这是3D的，有物理碰撞、光照反射等）

- 代码性能（非常消耗性能，因为细节很多，有内存、帧率、GPU需要管理，有些模型能够组出来效果，但是很卡）

完整Prompt如下，你可以直接复制，打开一个空白项目，让各个模型去测试


ObjectiveBuild a visually stunning, high-fidelity 3D voxel-style simulation of the Golden Gate Bridge in Three.js.Prioritize complex visuals (not simple blocks), strong atmosphere depth, and smooth ~60FPS.
Visuals & Atmosphere- Lighting: a Time-of-day slider (0–24h) that controls sun position, intensity, sky color, and fog tint.- Fog: volumetric-feeling fog using lightweight sprite particles; slider 0–100 (0 = crystal clear, 100 = dense but not pure whiteout).- Water: custom shader for waves + specular reflections; blend horizon with distance-based fog (exp2) so the far water merges naturally.- Post: ACES filmic tone mapping + optimized bloom (night lights glow but keep performance).
Scene Details- Bridge: recognizable art-deco towers, main span cables + suspenders, piers/anchors consistent with suspension bridge structure.- Terrain: simple but convincing Marin Headlands + SF side peninsula silhouettes.- Skyline: procedural/instanced city blocks on the SF side to suggest depth.- Traffic: up to ~400 cars via InstancedMesh, properly aligned on the deck (avoid clipping). Headlights/taillights emissive at night.- Ships: a few procedural cargo ships with navigation lights moving across the bay.- Nature: a small flock of animated birds (lightweight flocking).
Night ModeAt night, enable city lights, bridge beacons, street lights, vehicle lights, ship nav lights.
Tech & Controls (Important)- Output MUST be a single self-contained HTML file (e.g., golden_gate_bridge.html) that runs by opening in Chrome.- No build tools (no Vite/Webpack). Pure HTML + JS.- Import Three.js and addons via CDN using ES Modules + importmap.- UI: nice-looking sliders for Time (0–24), Fog Density (0–100), Traffic Density (0–100), Camera Zoom.- Optimization: use InstancedMesh for repeated items (cars/lights/birds), avoid heavy geometry, keep draw calls low.

做完之后，请记得自己玩一玩，放大、旋转，看看细节。各个模型的能力一目了然。

这个视频是GPT-5.1-Codex-Max 做的。其实GPT-5.2-Codex和Gemini 3 Pro做得更好，我只是没录视频而已。对了，Gemini 3 Flash做得也比较让人惊喜。

国产模型当中，暂时唯一能够比较顺利做出来的是GLM-4.7，但是仍然需要抽卡，并不一定一次成功、细节也不够多。下面这是视频，并不是一次成功，而是修了一次。而且当我想再试一次的时候，失败了。

这里也可以回答文章开头，那位朋友提出的问题了：

- 如果你让Claude Sonnet 4.5和Claude Opus 4.5做金门大桥，你也是可以明显看出来差距的。

- 如果做出来之后，再让其他模型帮忙评审一下代码，你对差距的感受就更加强烈了。