别被分数骗了：拆解 Anthropic 的 Agent 评估方法论

显示全部楼层

最近 Anthropic 发布了一篇深度博客《Demystifying evals for AI Agents》，撕开了“Agent 看起来很美，跑起来稀碎”的真相。读完之后，我最大的启发不是怎么写测试题，而是——我们对 Agent 的信任，不该建立在“它说了什么”，而应建立在“它留下了什么”。

大家构建 AI Agent 的流程通常很“标准”：选个模型，塞几个工具，写段 System Prompt，自己点两下觉得行，就上线了。然后？然后用户就开始在各种你没想到的地方报 Bug。

以下是藏在技术细节背后的几个底层洞见。

1. 考卷出错了，学生再牛也只有 42 分

博客里提到了一个极具戏剧性的案例：Anthropic 内部测试顶级模型 Opus 4.5 时，在 CORE-Bench（一个衡量 Agent 核心能力的基准）跑分居然只有 42%。

是模型退步了吗？不，是评分系统太死板（Brittle Grading）。

Agent 给出了 "96.12"，评分标准非要 "96.12499..."。
任务描述极其模糊，Agent 走了一条更聪明的路，却被判定“不按套路出牌”。

当研究员修复了这些评分 Bug 并给 Agent 更宽松的运行支架（Scaffold）后，分数瞬间从 42% 飙升到了 95%。

启发：在你质疑 Agent “智商”之前，先审视一下你的测试标准。很多时候，我们是用工业时代的刻度尺去量量子时代的波函数。

2. 扔掉你的单元测试，去读“脚印(Trace)”

传统的软件测试是函数式的：输入 A，预期输出 B。但在 Agent 的多轮对话中，这套逻辑彻底崩了。Agent 是非确定性的，它可能通过三步完成任务，也可能绕路走十步。

Anthropic 提出了一个核心标准：执行痕迹（Transcript）比最终结果（Outcome）更重要。

不要只看 Agent 说“票订好了”：那可能只是幻觉。
去看数据库记录：那才是真实发生的改变。

金句：评价一个 Agent，不要听它的表白，要看它的银行流水。

3. 评估是免疫系统，不是裁判席

很多团队把评估（Eval）当作上线的最后一道门槛。但在 Anthropic 看来，评估应该是贯穿始终的“免疫系统”。

他们建议：

从失败中生长：不要凭空编题，直接把生产环境里的真实失败案例捞出来，脱敏后作为测试题。
对抗随机性：同一个任务跑 1 次是运气，跑 10 次取平均值才是实力。
人肉 Review 痕迹：在初期，你必须亲手翻开那几百页的 Trace（执行痕迹）。如果你不理解 Agent 是怎么错的，你就永远修不对。

4. 评估本质上是对“自主性”的定价

为什么评估这么难？因为 Agent 的价值在于“处理不确定性”，而评估要求的是“确定性”。

这中间的张力揭示了 Agent 开发的本质：评估不是为了追求 100% 的正确率，而是为了划清“它可以放手去干”和“必须人机协同”的边界。

只有建立了足够鲁棒的评估体系，你才敢给你的 Agent 真正的权限，而不是让它在一个名为“自主”的笼子里打转。

5. 延展思考：Agent 评估与组织管理

如果你把 Agent 看作是一个“新入职的数字化员工”，你会发现这套评估逻辑与企业管理惊人地相似：

KPI vs OKR：如果你只考核 KPI（结果分数），员工就会学会“刷分”或在评分漏洞上钻营；如果你关注 OKR（执行过程与最终价值），你就能识别出谁是真正的能人。
面试 vs 试用期：目前的 Benchmark 跑分大多是“面试”，通过一两道题看智力；而 Anthropic 强调的 Evals 是“试用期”，通过真实业务场景下的多轮协作，看实际落地能力。

参考资源与深度阅读：

Anthropic Engineering Blog: Demystifying evals for AI agents
Model Context Protocol (MCP) Official Site - 了解 Agent 如何标准化地调用工具。
Anthropic Economic Index 2026 - AI 技能与经济影响的深度量化报告。

最后的一点思考：在这个“Vibe Coding”（氛围感编程）盛行的时代，很多人在凭感觉调优。但 Anthropic 提醒我们，真正通往生产级的阶梯，是用无数个枯燥的 Eval 搭建起来的。

与其花时间写那段花里胡哨的 Prompt，不如静下心来写三个能反映真实业务痛点的评估脚本。毕竟，在这个赛道上，慢即是快，稳即是赢。

总结：Agent 评估的演进图谱

从“死板评分”到“全链路追踪”的跨越：真正的评估不再是冰冷的期末考分数，而是像免疫系统一样，时刻感知 Agent 在复杂现实中的每一次呼吸与脉动。