链载Ai

标题: xBench：红杉中国发布的面向 AI Agent 的「常青基准」 [打印本页]

作者: 链载Ai 时间: 1 小时前
标题: xBench：红杉中国发布的面向 AI Agent 的「常青基准」

一、背景与目的

xBench 是红杉中国发布的一个新的 AI Agent 评估框架，其核心目标是：动态追踪 AI 的“通用智能”进展 + 实际应用价值（Utility）。

传统评测只关注学术题目，xBench 要追踪现实问题解决能力。

二、核心设计：双轨制

xBench 采用“双轨”框架： AI Evaluation Framework showing the evolution from Past AI Capabilities Evals to Future Utility Tasks, with AGI tracking and Profession Aligned paths

评估类型	目标能力	特点说明
AGI Tracking	推理、工具使用、记忆等模型核心能力	接续 academic benchmarks 但常更新
Profession-Aligned	真实商业环境中的 KPI 任务完成能力	与领域专家共建，反映落地价值

三、为何构建 xBench

1. 与真实价值脱节：很多 benchmark 解决的只是“更难的题”，但现实世界更关心解决实际问题。

2. 静态测试集容易被“刷榜”：模型过拟合静态数据，无法长期跟踪谁在真正进步。

四、xBench 的亮点

动态更新：不同于传统静态评测集，xBench 是“活”的 benchmark。
技术-市场匹配度（TMF）追踪：关注哪个模型最接近市场需求。
开放第三方评测机制：尤其 AGI Track，面向社区开放，保证公平性。

AGI Tracking

AGI Tracking 是 xBench 的「基础智能评估」轨道，目标是：

系统性评估通向 AGI（人工通用智能）过程中的关键能力。

它将 Agent 能力划分为四大维度：

基础智能（Fundamental Intelligence）
专业能力（Professional Capabilities）
创新能力（Innovation Capacity）
组织能力（Organizational Abilities）

这四大维度共同构成了一个「能力矩阵」，每个维度下再细分出多个子能力。如下图所示：

? 每项能力，具体评估什么

类别	能力模块	评估任务描述
Fundamental Intelligence	Knowledge	掌握广泛的人类知识（ScienceQA）
	Multimodality	多模态信息整合（视觉、语音、文本）
	Reasoning	多步推理，复杂逻辑链路能力
	Reliability	模型的安全性、幻觉控制、置信度标定
Professional Capabilities	Tool Usage	工具调用与组合任务（AI Search）
	Long-term Memory	可控、低成本、高容量的记忆力
	Test-time Learning	零样本/少样本学习能力
Innovation Capacity	Problem Identification	提出有价值问题的能力
	Active Learning & Self-Improvement	主动修正弱点、持续优化自我
Organizational Abilities	Collaboration	多 Agent 协同，形成规模效应
	Competition	在博弈或信息不对称环境中胜出