返回顶部
热门问答 更多热门问答
技术文章 更多技术文章

Claude Opus 4.1:静悄悄的革命,响当当的实力。

[复制链接]
链载Ai 显示全部楼层 发表于 昨天 21:55 |阅读模式 打印 上一主题 下一主题

ingFang SC", Cambria, Cochin, Georgia, Times, "Times New Roman", serif;font-size: 15px;letter-spacing: 0.1em;color: rgb(63, 63, 63);">昨天除了 OpenAI 的更新之外,Anthropic 也“悄悄”更新了模型。Claude Opus 4 升级到 Claude Opus 4.1 了。

ingFang SC", Cambria, Cochin, Georgia, Times, "Times New Roman", serif;font-size: 15px;letter-spacing: 0.1em;color: rgb(63, 63, 63);">为了狙击 OpenAI,Anthropic 也是真拼了。 我也是前天看到了它们在内测新模型的消息,没想到今天就放出来了。

ingFang SC", Cambria, Cochin, Georgia, Times, "Times New Roman", serif;font-size: 15px;letter-spacing: 0.1em;color: rgb(63, 63, 63);">目前新模型 Opus 4.1 已经可以通过客户端和 API 进行使用,而且API 价格和之前的 Opus 保持不变。

ingFang SC", Cambria, Cochin, Georgia, Times, "Times New Roman", serif;display: table;padding: 0.3em 1em;color: rgb(255, 255, 255);background: rgb(201, 99, 66);border-radius: 8px;box-shadow: rgba(0, 0, 0, 0.1) 0px 4px 6px;">升级概览

ingFang SC", Cambria, Cochin, Georgia, Times, "Times New Roman", serif;font-size: 15px;letter-spacing: 0.1em;color: rgb(63, 63, 63);">根据官方的说法,Claude Opus 4.1 在ingFang SC", Cambria, Cochin, Georgia, Times, "Times New Roman", serif;font-size: inherit;color: rgb(201, 99, 66);">真实世界的编码任务、推理、代理任务中都有提升。在ingFang SC", Cambria, Cochin, Georgia, Times, "Times New Roman", serif;font-size: inherit;color: rgb(201, 99, 66);">SWE-bench Verified这个测试代码能力的 Benchmark中,Claude Opus 4.1 提升到了 74.5% 的准确率。得益于这个提升,让 Claude 在深度研究和数据分析的能力上都得到了进一步的加强。

ingFang SC", Cambria, Cochin, Georgia, Times, "Times New Roman", serif;font-size: 15px;color: rgb(63, 63, 63);">BenchmarkingFang SC", Cambria, Cochin, Georgia, Times, "Times New Roman", serif;font-size: 15px;margin: 0.1em auto 0.5em;border-radius: 8px;box-shadow: rgba(0, 0, 0, 0.1) 0px 4px 8px;" title="null"/>

ingFang SC", Cambria, Cochin, Georgia, Times, "Times New Roman", serif;font-size: 15px;letter-spacing: 0.1em;color: rgb(63, 63, 63);">有一说一,看这个 Benchmark 图真的发现 Claude 在代码这个领域非常垂类了。在别家 AIME 2025 这个数学竞赛榜都刷到 88% 的时候,它还只停留在 78%,比别家还低 10 个百分点。

光从 Benchmark 上看,其实 Opus 4.1 提升不是很大。所以我也实际上手体验对比了下,看看到底效果提升在哪儿。

案例分享

本次测试对比了 Claude Opus 4.1 和 Claude Opus 4,分别通过 Claude app 和Chatwise 进行对比

任务 1:创建一个旋转的六边形,其中包含一个完全功能的贪吃蛇游戏,贪吃蛇会与六边形边界互动,食物不能落在六边形外面。

Claude Opus 4.1 的效果:

Claude Opus 4 的效果:

果然,升级不是白升级的。Claude Opus 4 生成的六边形没有旋转,Claude 4.1 Opus 生成的就好很多。

任务 2: 设计并创建一个非常有创意、精心且细致的体素(voxel)艺术场景:主题是上海的建筑风景。让整个场景看起来震撼、多样化,并使用色彩丰富的体素。可以使用任何库来实现,但最终请把所有内容整合在一个单独的 HTML 文件里,这样我可以直接粘贴后在 Chrome 中打开运行

Claude Opus 4.1 的效果:


Claude Opus 4 的效果:

这个真的牛逼,提升还是非常大的。明显 Claude Opus 4.1 生成的细节更加丰富,效果更加全面。

任务 3:使用 Three.js 实现一个带有颜色的魔方的旋转和还原功能

Claude Opus 4.1 的效果:
Claude Opus 4 的效果:

太强了,Claude Opus 4.1 的完成度明显强很多,无论是 UI 界面的美观程度还是功能实现上都是 Claude Opus 4.1 更好。

任务 4: make an animated app of the solar system.

Claude Opus 4.1 的效果:

Claude Opus 4 的效果:

效果上可以看到 Claude Opus 4.1 还是提升不少的。

任务 5: 创建一个 3D HTML 山脉场景,包含悬崖、河流和昼夜光照变化。支持拖动和缩放、动画过渡、真实感渐变色,并可切换等高线显示

这个是 Kimi的官方 demo case,我拿来测测 Claude 新模型的效果
Claude Opus 4.1 的效果

Claude Opus 4 的效果

这感觉上差了不是一点半点呐。 注意看 Claude Opus 4.1 生成的效果,它是会随着时间的变化,自动进行昼夜的变化的,不需要依赖我去拖动时间条。

Claude Opus 4.1 看上去不仅仅只是Benchmark 上反应的那么一点点小幅度的更新,或者要么我合理怀疑 Anthropic 为了凸显 Opus 4.1 的牛逼把之前的 Opus 4 降智了。不然我真觉得这进步挺大的了


回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

链载AI是专业的生成式人工智能教程平台。提供Stable Diffusion、Midjourney AI绘画教程,Suno AI音乐生成指南,以及Runway、Pika等AI视频制作与动画生成实战案例。从提示词编写到参数调整,手把手助您从入门到精通。
  • 官方手机版

  • 微信公众号

  • 商务合作

  • Powered by Discuz! X3.5 | Copyright © 2025-2025. | 链载Ai
  • 桂ICP备2024021734号 | 营业执照 | |广西笔趣文化传媒有限公司|| QQ