顶尖AI研究员揭秘：为什么99%的模型评测都是在骗你 - 链载Ai

ingFang SC", Cambria, Cochin, Georgia, Times, "Times New Roman", serif;font-size: 20px;font-weight: bold;margin: 0px auto 40px;width: fit-content;background: rgb(82, 150, 212);color: rgb(255, 255, 255);text-align: center;padding: 0px 0.2em;">介绍

ingFang SC", Cambria, Cochin, Georgia, Times, "Times New Roman", serif;margin: 10px 0px;letter-spacing: 0.1em;white-space: pre-line;color: rgb(63, 63, 63);font-size: 15px;">随着大语言模型的迅速发展，我们如何衡量它们的水平？关键在于构建好的评测基准（benchmark）。正如Ofir Press所指出的，优秀的基准测试能够将现有模型的弱点公之于众，引导社区改进模型。Press 本人在职业生涯中投入大量精力研发基准测试，并亲自带领团队刷新多个基准的性能纪录。他认为，设计高质量的基准测试与研发新的模型同等重要。

ingFang SC", Cambria, Cochin, Georgia, Times, "Times New Roman", serif;font-size: 15px;">
ingFang SC", Cambria, Cochin, Georgia, Times, "Times New Roman", serif;font-size: 15px;">Press 是业内专注语言模型评测的权威人士，现为 Princeton 大学 PLI 实验室的博士后。他创建的SWE-bench软件工程基准等数据集已被 OpenAI、Meta、谷歌、Anthropic 等公司广泛采用，累计下载次数超过 200万次。因此，他关于如何构建出色基准的见解极具参考价值。

本文整理自 Press 在2024年发表的博客《How to Build Good Language Modeling Benchmarks》，并阐明其中的核心思想，包括数据集构建原则、评估方法、常见陷阱（如数据泄露）等，这些方法对大模型评估、公平对比和实际部署都有着极其重要的意义。

原文地址：https://ofir.io/How-to-Build-Good-Language-Modeling-Benchmarks/

ingFang SC", Cambria, Cochin, Georgia, Times, "Times New Roman", serif;font-size: 20px;font-weight: bold;margin: 40px auto;width: fit-content;background: rgb(82, 150, 212);color: rgb(255, 255, 255);text-align: center;padding: 0px 0.2em;">优秀的 benchmark 有哪些特点

ingFang SC", Cambria, Cochin, Georgia, Times, "Times New Roman", serif;font-size: 17px;font-weight: bold;margin: 40px 0px;width: fit-content;color: rgb(0, 0, 0);padding-left: 8px;border-left: 3px solid rgb(123, 183, 224);">1. 任务要自然真实

ingFang SC", Cambria, Cochin, Georgia, Times, "Times New Roman", serif;margin: 10px 0px;letter-spacing: 0.1em;white-space: pre-line;color: rgb(63, 63, 63);font-size: 15px;">“自然” (Natural)指的是基准测试中的问题要来源于现实生活，是人们真正会问、经常遇到的问题。例如，Press 与团队构建的SWE-bench基准，其所有问题都是真实用户在 GitHub 上报告的程序漏洞，任务要求模型根据当时的代码仓库状态尝试修复这些 bug。这类基准之所以自然，是因为“修 bug”本身就是开发者日常会做的真实工作，而且解决得好还能为人类开发者节省大量时间。再比如，AssistantBench基准收集了现实生活中用户会问的助理类问题（如“附近哪家瑜伽馆周一到周五早上8点前有 vinyasa 课程？”），CiteME基准则关注学术引用查询（如“最早证明 Transformer 模型不能外推长序列的论文是哪篇？”）。这些问题源自真实需求，因而模型若能在此类基准上表现优异，往往也意味着它在现实中有用武之地。

ingFang SC", Cambria, Cochin, Georgia, Times, "Times New Roman", serif;margin: 10px 0px;letter-spacing: 0.1em;white-space: pre-line;color: rgb(63, 63, 63);font-size: 15px;">相比之下，一些脱离实际的“不自然”基准就很难引起社区兴趣。Press 指出，那些类似智力测验的题目（如图形模式识别）或过于浅显的常识问答（如“Bob 朝 Alice 脸上扔了个鸡蛋，Alice 是高兴、难过还是无所谓？”）在今天看来吸引力不足。也许在早期模型连基本常识都掌握不好时，这种基准测试有意义，但如今模型能力提高，我们需要用更贴近真实、更困难的任务来挑战它们。一个判断基准测试是否符合"自然"标准的简单方法是：看它是否满足"实用性"标准。具体来说，就是要问自己：如果一个系统在这个基准测试中的表现超过了基线水平，它对人类来说是否真的有用？能自动修复哪怕一部分软件 bug 的系统，显然能大幅节省开发者时间；能快速帮人找到合适瑜伽课程的系统，也有直接价值。

不现实的问题形式：典型例子是将问题做成人为的选择题格式。Press 举例说，我们去看医生时，从不会说“医生医生，我手肘很疼，而且原因肯定是以下四个选项之一……” 。如果基准测试中的提问方式在现实中几乎不存在，那就应该考虑改进得自然一些。
凭空捏造的问题：如果问题并非来源于真实用户，而是出题者闭门想出来的怪问题，也往往欠缺自然性。与其闭门造车，不如去大型搜索引擎的日志中寻找那些用户真正提问却没找到满意答案的问题。这样筛选出来的问题更能代表真实需求，也更有意义。

2. 结果可自动评估

好的基准测试还应当能够方便自动判分（Automatically Evaluatable）。也就是说，对于模型给出的答案，我们能有客观标准立即判断对错。一些任务的评价很容易做到这一点，例如代码生成类基准可以通过运行单元测试来验证程序是否正确——许多流行的基准（如 OpenAI 的 HumanEval、Press自己的 SWE-bench）都采用了这种单元测试自动评估方法。再比如数学题或事实查询题目也往往有唯一正确答案，模型输出是否匹配标准答案可以自动判定。

但也有不少有价值的任务难以自动评估。比如文本摘要（summarization）就是一个对人类很有用但评估困难的任务。“总结这位病人的医疗档案（500字）”这样的请求对人类医生非常实用，可惜至今相关基准很少，正是因为不同模型给出的摘要可能各有千秋，而判断哪个更好缺乏公认的自动标准。目前虽然有人尝试用另一个语言模型来评分模型生成的摘要，但 Press 认为让同一种 AI 既当选手又当裁判并不妥当。毕竟，评价者如果也是 AI，难免会有偏颇，甚至模型可能针对评判模型的偏好“投机取巧”。理想情况下，我们要么让模型解决任务，要么让模型评价输出，但不要让同一类模型体系同时负责这两件事。

3. 测试具有挑战性

第三个关键要素是具备挑战性（Challenging）。基准如果太简单，意义就大打折扣。如果发布时顶尖模型已经能达到例如 80% 的高准确率，那么大家会觉得这个问题已经“被解决了”，自然缺乏动力再投入精力攻关。因此，Press 建议新基准在推出时，应选择那些当前模型成功率非常低的任务。理想情况下，最好的模型初始准确率仅在个位数水平，甚至越低越好。他在2024年发表这篇博客的时候指出发布时顶尖模型应在 1%～35% 正确率区间，后来随着这一年模型进步飞快，又在2025 年 1 月修订这篇博客的时候，改为修不超过约 10% 较为合适。有趣的是，Press 又在5 月的时候修订了一下这个标准，不要只考虑那些在发布时AI模型得分为0分的测试，而是要设计那些AI可能会得到"-200分"的超难测试。研究者需要找出那些极其困难的问题，即使AI性能提升3倍，它们依然无法解答。换言之，就是要挑选目前模型基本做不对的难题来当基准。

不过，也要注意难度与参与积极性之间的平衡。如果基准看起来几乎“不可能完成”，研究人员可能直接丧失兴趣。Press 分享了自己的经历：他团队推出 SWE-bench 时，最强模型的初始正确率只有 1.96%，很多人直呼太难而打退堂鼓。为此，Press 早有准备——他们在发布基准的同时立刻着手开发针对该基准的自动 Agent 系统 SWE-agent，并成功把成绩提升到约 13% 。当社区看到有人突破了两位数准确率，这个任务一下就“不再显得不可能”，许多团队随即加入改进模型的行列，此后成绩不断被刷新。这段经历说明，基准设计者既要敢于提出极具挑战的任务来激发研究潜力，也需要考虑为社区提供一点“成功的曙光”，以免大家被难度吓退而裹足不前。

Bonus：避免数据“泄题”

Press 还提出了一个理想的附加特性：基准要尽量避免数据泄露（leak）。所谓“泄露”，指的是基准的测试题目及答案被模型在训练时提前看到。如果发生这种情况，模型可能不是靠真实能力而是靠记忆答对题目，评测结果就失真了。这在大模型时代是个现实问题——因为主流 LLM 通常爬取互联网海量文本作为训练语料，一旦某个新基准公开发布，就有可能被未来模型的训练数据“捡到” 。

要防止这一点非常困难，但并非没有对策。Press 在他的 SciCode 基准中尝试了一个巧妙的方法：公布问题，不公布答案。具体来说，SciCode 收录了一系列由理工科博士设计的超难编程挑战，每个数据点只有函数需求描述和用于检验代码正确性的测试用例，而参考解答的代码则被故意留作秘密，不向公众发布。这样，即使将来这些题目“泄露”进入模型的训练集，模型顶多看到某个编程题的描述和测试要求，但并不知道正确的解法代码是什么，因此仍然需要真正推理才能作答。通过此种手段，尽可能保证了基准对模型泛化能力的考验。不过，Press 也承认要打造一个完全“防泄漏”的评测非常困难，并非每个基准都能做到这一点。因此，他将其称为“加分项”，是值得努力的目标但不是硬性标准。

其他指南与注意事项

除了上述“三大原则”和附加Bonus之外，Press 还给出了几个实用建议，涉及如何设计指标和发布评测结果，以确保对模型的评估公平、清晰且具有影响力：

(1)采用单一指标，明确呈现成绩。尽量为基准设定一个核心分数，让大家一目了然地进行比较。不要搞一堆不同的指标或把成绩按各种子类别拆分，这会使人摸不着头脑，降低社区对基准的接受度。毕竟，大家更愿意直接说“我们模型在某某基准上得了 87 分”，而不是同时报出准确率、精确率、召回率等三四个数字。如果确实有细分分析的需求，也可以在基准论文的分析部分提供，但在对外宣传和比较时，应聚焦单一的总分。

(2)提供强有力的基线。在发布基准时，官方应报告当前一些最强模型在该数据集上的表现，包括大型的专有模型（如 GPT-4.1或者O3）和领先的开源模型。切忌只选用老旧或弱小的模型来当对比，这样做表面上会让你的基准显得很难，但实际上却误导了大家。正确的做法是如实展示强模型的基准成绩，以公平反映任务难度，也让后来者清楚地了解与顶尖水平之间的差距。

(3)不必苛求永久难度。基准往往生命周期有限，常在发布后一两年内即被“攻破”或性能饱和。深度学习领域日新月异，无法预测五年后的模型水平，因此没必要为了耐久性而刻意避开时效性强的问题。即使基准中有些题目两年后答案可能变了，也无妨——能促使当前模型取得进步就足够了。事实上，从 GLUE 到 SuperGLUE 等著名通用 NLP 基准，无不是在推出不到一年内就被模型达到甚至超越了人类水平。我们与其试图设计“永不过时”的题目，不如专注于当下真正困难且有意义的问题，让基准发挥引领近期研究的价值。

如 GLUE 等知名基准所示，新提出的任务往往很快被模型“攻破”。GLUE 在2018年发布时被认为“现有方法无法解决”，但不到一年模型在 GLUE 上的成绩就追平甚至超过了人类水平。研究者随后又推出更困难的 SuperGLUE 基准来继续拉开人与模型的差距。

结语

正如 Press 所言，好的基准“为创造力提供了广阔空间，并能对引导社区未来产生巨大影响”。构建一个优秀的大模型评测基准并非易事，需要平衡真实性、可评估性和挑战度，还要顾及防止泄题、结果呈现等诸多细节。然而，恰当的基准能让我们更公正地比较模型、发现短板，从而有效提升模型能力。这对于确保 AI 系统朝着有用可靠的方向发展至关重要。

当然，上述指导原则也并非僵硬教条。正如 Press 强调的：“规则就是用来被打破的” ——不完全符合所有准则的基准未必不好，这些标准更多是用来帮助判断设计思路是否合理的参考。具体情况下可能需要灵活权衡：即便无法面面俱到，只要整体方向正确，一个基准仍然值得我们去构建和挑战。希望这些经验提示能帮助业界打造下一个出色的大模型评测基准，也让我们在关注模型能力突破的同时，不忘基准测试这一推动进步的基石。

写在最后

本文整理了有关构建 Benchmark 的一些基本准则，这些准则可以被认定是构建一个 benchmark 的重要指导方针，也希望小伙伴们在构建 Benchmark 的时候能多多参考这些准则，设计出有意义的基准测试来正确有效地衡量模型的能力呀～