现在评测集太简单了，OpenAI 推出深度搜索评测新基准 BrowseComp

显示全部楼层

OpenAI 昨日除发布了个人记忆功能外（谜底揭晓！ChatGPT记忆功能全面升级，您的专属ChatGPT上线），还宣布推出并开源 BrowseComp，一项全新且极具挑战性的基准测试。该基准旨在精准衡量智能体在互联网上定位极端难以查找信息的核心能力，以此应对当前评估方法的显著不足。

随着 AI 智能体日益依赖网络浏览获取知识，评估其深度挖掘和综合信息的能力变得至关重要。现有基准（如 SimpleQA）已被具备快速浏览工具的先进模型（如带浏览功能的 GPT-4o）轻松搞定，无法有效衡量 AI 是否具备解决复杂、需要持久探索和跨多网站信息整合的现实挑战。

BrowseComp 正是为解决这一关键差距而设计。它包含 1,266 个精心构建的高难度问题，核心特点是“难于查找，易于验证”。问题要求简短、明确、有据可查的答案，并刻意设计得无法通过简单搜索轻易获得，区别于简单的信息检索，它迫使 AI 智能体必须具备卓越的事实推理、检索浏览分析的能力。如：

请识别一篇在 2023 年 6 月前发表的研究出版物的标题，该出版物提到了文化传统、科学过程和烹饪创新。该出版物由三名作者合著，其中一名是西孟加拉邦的助理教授，另一名拥有博士学位。
答案：面包制作的基础：面包的科学

90 年代，一所新学校由合并一所女子学校和一所男子学校而成，形成一所男女同校的学校，位于一个可追溯到 19 世纪后半叶的历史小镇。这所新学校被赋予了一个拉丁名字。这所女子学校的名称是什么？
答案: 慈善修女院

该基准问题主题的分布如下：

该基准的挑战性极高：

对顶尖 AI 构成严峻考验：即使是 GPT-4o（带浏览功能）的准确率也仅为 1.9%。
对人类同样困难：在专门测试中，经验丰富的人类研究员在 2 小时内仅能解决 29.2% 的问题。

测试结果清晰地揭示了能力差异：虽然标准模型表现不佳，但 OpenAI 专为深度研究和持久网络浏览训练的 Deep Research 智能体表现突出，准确率达到 51.5%。这有力证明了 BrowseComp 在区分 AI 真实深度信息检索能力方面的有效性。研究同时表明，增加推理计算资源能显著提升性能。

OpenAI 强调，通过开源 BrowseComp，旨在推动研究社区开发更强大、更可靠、更值得信赖的 AI 智能体。虽然 BrowseComp 聚焦于特定核心能力，但它为衡量 AI 在信息迷宫中的关键技能（持久性与创造力）提供了一个不可或缺且易于评估的工具。

BrowseComp 现已通过 OpenAI 的 simple-evals GitHub 仓库向公众开放。OpenAI 诚邀全球研究者利用此基准进行评估与创新，并期待反馈。为维护基准的长期有效性，强烈建议不要在网络上公开传播数据集中的具体示例。这一基准的推出不仅能够对齐评测标准，更重要的是刺激各大厂商在这一领域的投入，深度搜索将迎来“超级时刻”！

项目地址：https://github.com/openai/simple-evals