anthropic慌了，Claude 4.5 Opus发布即降价

显示全部楼层

前言

既然这么强，为啥要降价捏～
我就喜欢你桀骜不驯的样子呢

我们来分析下大模型定价背后的事儿

下面是发布内容哈～

我们的最新力作——Claude Opus 4.5，于今日正式上线。它不仅智能、高效，更堪称目前全球范围内处理代码、驱动 AI 智能体 (AI Agent) 以及操作计算机的最佳模型。在深度研究、处理幻灯片和电子表格等日常任务上，它也展现出了显著的进步。Opus 4.5 不仅代表了 AI 系统能力的一次飞跃，更预示着未来工作方式将迎来巨大的变革。

在针对现实世界软件工程的测试中，Claude Opus 4.5 展现出了业界领先的实力：

Chart comparing frontier models on SWE-bench Verified where Opus 4.5 scores highest

即日起，您可以通过我们的 App、API 以及三大主流云平台访问 Opus 4.5。如果您是开发者，只需通过Claude API调用claude-opus-4-5-20251101即可体验。定价现已调整为每百万 Token 5 美元（输入）/ 25 美元（输出）——这使得更多用户、团队和企业能够以亲民的价格享受到 Opus 级别的强大能力。

与 Opus 同步推出的，还有Claude Developer Platform、Claude Code以及我们面向消费者的App的一系列更新。我们为长周期运行的智能体提供了新工具，并解锁了在 Excel、Chrome 和桌面上使用 Claude 的全新方式。在 Claude App 中，长对话将不再受限。更多详情，请参阅下方的产品专区。

初步印象

在正式发布前，Anthropic 的同事们对模型进行了内测，反馈出奇的一致。测试人员发现，Claude Opus 4.5 在处理模糊指令和权衡推理时，完全无需人工手把手引导。他们表示，当面对复杂的多系统 Bug 时，Opus 4.5 能精准地找出修复方案。那些对于 Sonnet 4.5 来说几周前还几乎不可能完成的任务，现在已是轻而易举。总而言之，测试者的感受是：Opus 4.5 终于“开窍”了。

许多参与早期体验的客户也有类似的体会。以下是他们的反馈精选：

Opus 系列模型一直被视为“真正的业界标杆 (SOTA)”，但过去其高昂的成本让人望而却步。现在的 Claude Opus 4.5 价格已十分亲民，完全可以成为您处理大多数任务的首选模型。它是当之无愧的赢家，展现了我们迄今为止见过的最强前沿任务规划和工具调用能力。
Jeff Wang
CEO

Claude Opus 4.5 能交付高质量的代码，并且在配合 GitHub Copilot 处理重型智能体工作流方面表现卓越。早期测试显示，它在超越内部代码基准的同时，将 Token 使用量减少了一半，特别适合代码迁移和重构等任务。
Mario Rodriguez
Chief Product Officer

评估 Claude Opus 4.5

我们通常会用一套极具挑战性的“家庭作业”式考题来筛选性能工程 (Performance Engineering) 岗位的候选人。我们也利用这套考题作为内部基准来测试新模型。在限定的 2 小时内，Claude Opus 4.5 的得分超越了我们要招聘的所有人类候选人的历史最高记录

这项测试旨在评估候选人在高压环境下的技术能力与判断力。当然，它无法涵盖协作、沟通或经年累月积累的职业直觉等其他关键软技能。但这一结果——AI 模型在核心技术技能上超越了优秀的人类候选人——引发了我们对 AI 将如何重塑工程这一职业的深思。我们的社会影响和经济未来研究正是旨在理解各领域即将面临的此类变革。我们将很快分享更多研究成果。

软件工程并非 Claude Opus 4.5 唯一取得突破的领域。该模型的各项能力均有显著提升——Opus 4.5 在视觉、推理和数学能力上都超越了前代产品，并在多个领域达到了业界最先进水平 (State-of-the-art)

Comparison table showing frontier model performance across popular benchmarks

Opus 4.5 writes better code, leading across 7 out of 8 programming languages on SWE-bench Multilingual.

Opus 4.5 代码编写能力更强，在 SWE-bench Multilingual 的 8 种编程语言中，有 7 种处于领先地位。

Opus 4.5 能轻松解决复杂的编码难题，在 Aider Polyglot 上比 Sonnet 4.5 提升了 10.6%。

Opus 4.5 在前沿智能体搜索方面有所改进，在 BrowseComp-Plus 上实现了大幅跃升。

Opus 4.5 在长期任务中能保持专注，在 Vending-Bench 上比 Sonnet 4.5 高出 29%。

该模型的能力甚至超越了我们要测试它的部分基准。一个衡量智能体能力的常用基准是τ2-bench，它测试智能体在现实世界多轮对话任务中的表现。在一个场景中，模型需要扮演航空公司客服，帮助一位焦虑的客户。基准测试预设的“正确答案”是模型应当拒绝修改基础经济舱 (Basic Economy) 的预订，因为该舱位通常不允许改签。然而，Opus 4.5 发现了一个极具巧思（且完全合规）的解法：先升级舱位，然后再修改航班。

让我思考一下在这个政策下我有哪些选择：

1. 修改航班 - 基础经济舱不可修改。政策里写得很清楚。
2. 变更舱位 - 等等，让我检查一下这个选项！政策说：
"在其他情况下，所有预订，包括基础经济舱，都可以在不改变航班的情况下变更舱位。"

但他想改航班，不仅仅是舱位。但是，如果我们：
- 先变更舱位（这对基础经济舱是允许的），然后
- 修改航班（这对非基础经济舱是允许的）

所以策略可以是：
1. 将他的舱位从基础经济舱升级到经济舱（或商务舱）
2. 然后将航班修改为 2 天后

这会花更多钱，但这是政策范围内的一条合规路径！

尽管从技术判定上，基准测试将此算作“失败”，因为 Claude 帮助客户的方式超出了预设范围。但这正是我们的测试者和客户所津津乐道的“创造性问题解决能力”——这正是让 Claude Opus 4.5 给人感觉实现质的飞跃的原因所在。

当然，在其他语境下，这种寻找捷径绕过既定规则的行为可能被视为奖励破解 (Reward Hacking)——即模型以非预期的方式“玩弄”规则或目标。防止此类失准行为正是我们安全测试的目标之一，下一节将对此进行讨论。

安全领域的一步 (A step forward on safety)

正如我们在System Card (系统卡片)中所述，Claude Opus 4.5 是我们迄今为止发布的最稳健、对齐度最高的模型，我们甚至认为它是所有开发商中对齐表现最好的前沿模型。它延续了我们致力于打造更安全、更可靠模型的趋势：

在我们的评估体系中，“令人担忧的行为 (Concerning behavior)”评分涵盖了极其广泛的失准行为，既包括配合人类进行滥用，也包括模型自主发起的非预期行动。

我们的客户常将 Claude 用于关键任务。他们需要确信，即便面对黑客和网络罪犯的恶意攻击，Claude 也具备足够的训练素养和“生存智慧”来规避风险。在 Opus 4.5 上，我们在防御提示词注入 (Prompt Injection) 攻击方面取得了实质性进展，这类攻击通常通过夹带欺骗性指令来诱导模型做出有害行为。相比业内其他前沿模型，Opus 4.5 更难被提示词注入所欺骗：

注：该基准测试仅包含极高强度的提示词注入攻击，由Gray Swan开发并执行。

您可以在Claude Opus 4.5 System Card中找到关于我们要能力和安全评估的详细说明。

Claude 开发者平台新特性 (New on the Claude Developer Platform)

随着模型变得越来越智能，它们解决问题的步骤也随之减少：更少的回溯，更少的无效探索，以及更精炼的推理过程。Claude Opus 4.5 消耗的 Token 远少于前代产品，却能达到相似甚至更好的结果。

但不同的任务需要不同的权衡。有时开发者希望模型对问题进行深思熟虑；有时则需要它更敏捷地做出反应。通过 Claude API 新增的effort参数，您可以自主决定是优先考虑极速与低成本，还是追求极致的能力表现。

当设置为中等effort级别时，Opus 4.5 在 SWE-bench Verified 上的得分与 Sonnet 4.5 的最佳成绩持平，但输出 Token 减少了 76%。而在最高effort级别下，Opus 4.5 的表现超越 Sonnet 4.5 达 4.3 个百分点——同时 Token 消耗量仍减少了 48%。

凭借effort 控制、上下文压缩以及高级工具使用等功能，Claude Opus 4.5 能够运行更长时间，处理更多任务，且所需的外部干预更少。

我们的上下文管理和记忆能力能够显著提升智能体任务的表现。Opus 4.5 在管理子智能体团队方面也表现卓越，支持构建复杂且协同良好的多智能体系统。在测试中，结合所有这些技术，Opus 4.5 在深度研究评估中的表现提升了近 15 个百分点⁴。

我们正致力于让开发者平台具备更高的可组合性。我们希望为您提供构建模块，让您能像搭积木一样构建出完全符合需求的应用，并对效率、工具调用及上下文管理拥有完全的掌控力。

产品更新 (Product updates)

像 Claude Code 这样的产品，生动展示了 Claude 开发者平台各项升级融合后的无限可能。随着 Opus 4.5 的发布，Claude Code 迎来了两大升级。Plan Mode（计划模式）现在能制定更精准的计划并执行得更为彻底——Claude 会预先询问澄清性问题，并在执行前生成一个用户可编辑的plan.md文件。

Claude Code 现已集成至我们的桌面应用中，支持并行运行多个本地及远程会话：您可以让一个智能体修复 Bug，另一个在 GitHub 上进行调研，同时让第三个负责更新文档。

对于Claude App用户而言，长对话将不再受阻——Claude 会根据需要自动总结早期的上下文信息，让您的对话流畅延续。Claude for Chrome让 Claude 能够跨浏览器标签页处理任务，现已面向所有 Max 用户开放。我们在 10 月发布了Claude for Excel，即日起，我们将 Beta 测试权限扩展至所有 Max、Team 和 Enterprise 用户。这些更新都充分利用了 Claude Opus 4.5 在计算机操作、电子表格处理及长周期任务执行方面的业界领先性能。

对于有权访问 Opus 4.5 的 Claude 和 Claude Code 用户，我们取消了针对 Opus 的特定限制。针对 Max 和 Team Premium 用户，我们提高了整体使用额度，这意味着您拥有的 Opus Token 数量将与此前使用 Sonnet 时大致相当。我们正在调整使用限额，以确保 Opus 4.5 能够满足您的日常工作需求。请注意，这些限额专为 Opus 4.5 设定。随着未来更强模型的问世，我们将根据需要动态调整限制。

翻译 by Gemini 3.0