ingFang SC", Cambria, Cochin, Georgia, Times, "Times New Roman", serif;font-size: 15px;letter-spacing: 0.1em;color: rgb(63, 63, 63);">昨天除了 OpenAI 的更新之外,Anthropic 也“悄悄”更新了模型。Claude Opus 4 升级到 Claude Opus 4.1 了。ingFang SC", Cambria, Cochin, Georgia, Times, "Times New Roman", serif;font-size: 15px;letter-spacing: 0.1em;color: rgb(63, 63, 63);">为了狙击 OpenAI,Anthropic 也是真拼了。 我也是前天看到了它们在内测新模型的消息,没想到今天就放出来了。ingFang SC", Cambria, Cochin, Georgia, Times, "Times New Roman", serif;font-size: 15px;letter-spacing: 0.1em;color: rgb(63, 63, 63);">目前新模型 Opus 4.1 已经可以通过客户端和 API 进行使用,而且API 价格和之前的 Opus 保持不变。ingFang SC", Cambria, Cochin, Georgia, Times, "Times New Roman", serif;display: table;padding: 0.3em 1em;color: rgb(255, 255, 255);background: rgb(201, 99, 66);border-radius: 8px;box-shadow: rgba(0, 0, 0, 0.1) 0px 4px 6px;">升级概览ingFang SC", Cambria, Cochin, Georgia, Times, "Times New Roman", serif;font-size: 15px;letter-spacing: 0.1em;color: rgb(63, 63, 63);">根据官方的说法,Claude Opus 4.1 在ingFang SC", Cambria, Cochin, Georgia, Times, "Times New Roman", serif;font-size: inherit;color: rgb(201, 99, 66);">真实世界的编码任务、推理、代理任务中都有提升。在ingFang SC", Cambria, Cochin, Georgia, Times, "Times New Roman", serif;font-size: inherit;color: rgb(201, 99, 66);">SWE-bench Verified这个测试代码能力的 Benchmark中,Claude Opus 4.1 提升到了 74.5% 的准确率。得益于这个提升,让 Claude 在深度研究和数据分析的能力上都得到了进一步的加强。ingFang SC", Cambria, Cochin, Georgia, Times, "Times New Roman", serif;font-size: 15px;color: rgb(63, 63, 63);">
ingFang SC", Cambria, Cochin, Georgia, Times, "Times New Roman", serif;font-size: 15px;margin: 0.1em auto 0.5em;border-radius: 8px;box-shadow: rgba(0, 0, 0, 0.1) 0px 4px 8px;" title="null"/>ingFang SC", Cambria, Cochin, Georgia, Times, "Times New Roman", serif;font-size: 15px;letter-spacing: 0.1em;color: rgb(63, 63, 63);">有一说一,看这个 Benchmark 图真的发现 Claude 在代码这个领域非常垂类了。在别家 AIME 2025 这个数学竞赛榜都刷到 88% 的时候,它还只停留在 78%,比别家还低 10 个百分点。光从 Benchmark 上看,其实 Opus 4.1 提升不是很大。所以我也实际上手体验对比了下,看看到底效果提升在哪儿。
案例分享
本次测试对比了 Claude Opus 4.1 和 Claude Opus 4,分别通过 Claude app 和Chatwise 进行对比
任务 1:创建一个旋转的六边形,其中包含一个完全功能的贪吃蛇游戏,贪吃蛇会与六边形边界互动,食物不能落在六边形外面。

Claude Opus 4 的效果:

果然,升级不是白升级的。Claude Opus 4 生成的六边形没有旋转,Claude 4.1 Opus 生成的就好很多。
任务 2: 设计并创建一个非常有创意、精心且细致的体素(voxel)艺术场景:主题是上海的建筑风景。让整个场景看起来震撼、多样化,并使用色彩丰富的体素。可以使用任何库来实现,但最终请把所有内容整合在一个单独的 HTML 文件里,这样我可以直接粘贴后在 Chrome 中打开运行

这个真的牛逼,提升还是非常大的。明显 Claude Opus 4.1 生成的细节更加丰富,效果更加全面。
任务 3:使用 Three.js 实现一个带有颜色的魔方的旋转和还原功能


太强了,Claude Opus 4.1 的完成度明显强很多,无论是 UI 界面的美观程度还是功能实现上都是 Claude Opus 4.1 更好。
任务 4: make an animated app of the solar system.
Claude Opus 4.1 的效果:

Claude Opus 4 的效果:
效果上可以看到 Claude Opus 4.1 还是提升不少的。任务 5: 创建一个 3D HTML 山脉场景,包含悬崖、河流和昼夜光照变化。支持拖动和缩放、动画过渡、真实感渐变色,并可切换等高线显示
这个是 Kimi的官方 demo case,我拿来测测 Claude 新模型的效果
Claude Opus 4.1 的效果
Claude Opus 4 的效果
这感觉上差了不是一点半点呐。 注意看 Claude Opus 4.1 生成的效果,它是会随着时间的变化,自动进行昼夜的变化的,不需要依赖我去拖动时间条。
Claude Opus 4.1 看上去不仅仅只是Benchmark 上反应的那么一点点小幅度的更新,或者要么我合理怀疑 Anthropic 为了凸显 Opus 4.1 的牛逼把之前的 Opus 4 降智了。不然我真觉得这进步挺大的了