Claude 4：彻底炸了

显示全部楼层

ingFang SC", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;color: rgb(15, 76, 129);">一、一骑绝尘的孤独

ingFang SC", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;font-size: 16px;letter-spacing: 0.1em;color: rgb(63, 63, 63);">Anthropic 今晚揭幕的ingFang SC", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;font-size: inherit;color: rgb(15, 76, 129);">Claude Opus 4与ingFang SC", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;font-size: inherit;color: rgb(15, 76, 129);">Claude Sonnet 4，把大模型从「一次对话回答」推向「长时段、自主管理的思考实体」。从并行工具调用、可写可读的持久记忆、可挂起数小时的“扩展思考”——便会发现：

ingFang SC", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;font-size: 16px;font-style: normal;padding: 1em;border-radius: 6px;color: rgba(0, 0, 0, 0.5);background: rgb(247, 247, 247);">
ingFang SC", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;font-size: 1em;display: block;letter-spacing: 0.1em;color: rgb(63, 63, 63);">这些改动让 AI 第一次具备了“自己给自己留备忘录、再回头翻阅并继续任务”的能力。

ingFang SC", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;font-size: 16px;text-indent: -1em;display: block;margin: 0.2em 8px;color: rgb(63, 63, 63);">
• 在允许本地文件读写的环境里，Opus 4 能主动生成“memory files”，把关键事实、路径选择、乃至游戏地图分段写入，再调用。它不再靠“上下文窗口”死记硬背，而是学会了“存→取→用”。这让 AI 任务从数分钟延展到数小时乃至跨日，技术堆栈也从一次函数调用升格为持久进程。
ingFang SC", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;font-size: 16px;text-indent: -1em;display: block;margin: 0.2em 8px;color: rgb(63, 63, 63);">
• 过去的调用链是线性的：推理 → 结果 → 工具 → 回答。现在模型可在思考中暂停，分叉调用搜索、执行代码或访问文件系统，再回到主线。多线程调度意味着“意识里”可同时存在若干子任务，整体规划能力与真实人类接近。

ingFang SC", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;font-size: 16px;letter-spacing: 0.1em;color: rgb(63, 63, 63);">这一能力，也许比任何单项基准分数都更具箭头意义，兄弟们，AI 越来越像个人了，会自己整理知识，会并行的使用与反思进展！人类距离下岗还有多久！！

Illustration of Claude juggling several tasks in parallel

二、Code、Code、Code

不得不表扬，Claude 系列在 Coding 上持续有效的投入，本次发布在Coding 上又有新的提，而且不仅仅是代码层面的提升，而是整体生态的突破：

•Claude Code从研究预览转正，配套 VS Code / JetBrains 插件和 GitHub Actions。它不仅“生成代码”，还用 PR 留言与 CI 修复自动回环，真正嵌入 DevOps 闭环。对开发者而言，AI 的角色由“对话助手”变为“代码流上的二号提交者”。
• GitHub 在刚刚的Build 2025 宣布，新的 Copilot Coding Agent 默认调用 Sonnet 4，并公开称赞其在“agentic 场景”里的表现。这标志 GitHub 不再把 OpenAI 模型当唯一基石，这无疑见证了Claude 的技术底力也暗示着微软/GitHub 与 OpenAI 的关系由“深度绑定”转向“深度 + 宽度”并行，这也见证Claude 4 系列的实力有多么惊人。

Bar chart comparison between Claude and other LLMs on software engineering tasks

三、上不去的跑分，得上去的智商

有意思的是Opus 并不是在任何领域都强于 Sonnet，反而在代码领域 Sonnet 更强一些，这信息其实很有意思，至少能说明几个事情：

• 什么都强的大模型可能是一个巨大的挑战，不管是成成本还是质量。
• 细分模型不是坏事，至少 Claude Sonnet 承担着最佳的AI Coding 性价比。
• 知识已接近尾声，而智力才是全部。

Benchmark table comparing Opus 4 and Sonnet 4 to other LLM

四、其他汇总

维度	Opus 4	Sonnet 4	共同新特性
定位	超长任务、极限推理与代码生成的旗舰	性价比与瞬时响应兼顾的中坚	双模式：瞬时回答 / 扩展思考
代码基准	SWE-bench 72.5%、Terminal-bench 43.2%，居业界首位	SWE-bench 72.7%，刷新中档模型纪录	并行工具调用；可写入本地“记忆文件”
安全等级	首批触发 Anthropic ASL-3 风险管控的模型，启动更严密的越狱防护与安全赏金	同步继承	65% ↓ “走捷径”倾向；思维摘要仅在 5 % 长链条场景触发
价格	$15 / $75 每百万 tokens（入/出）	$3 / $15	旧价续用，API、Bedrock、Vertex AI 同步上架