链载Ai

标题: 美团 M17 团队开源 Meeseeks 评测集:揭秘大模型的 “听话”能力 [打印本页]

作者: 链载Ai    时间: 昨天 19:24
标题: 美团 M17 团队开源 Meeseeks 评测集:揭秘大模型的 “听话”能力

针对大模型知识推理能力与指令遵循能力存在表现差异的现象,为推进指令遵循能力的系统化研究与精准评估,美团 M17 团队推出全新评测基准 Meeseeks,并在魔搭社区、GitHub、Huggingface等开源平台上线。

本文目录

近期,以 OpenAI o 系列模型、Claude 3.5 Sonnet 和 DeepSeek-R1 等各类大模型为代表的 AI 技术快速发展,其知识与推理能力得到了广泛认可。然而,许多用户在实际使用中也注意到一个普遍现象:模型有时未能严格遵循输入指令的具体格式要求、字数限制或内容约束,导致输出结果虽内容尚可,却不完全符合输入指令。

针对大模型知识推理能力与指令遵循能力存在表现差异的现象,为推进指令遵循能力的系统化研究与精准评估,美团 M17 团队推出全新评测基准 Meeseeks。

基于 Meeseeks 基准的评测结果显示(以轮次 3 为准),推理模型 o3-mini (high)凭借绝对优势强势登顶,与另一版本 o3-mini(medium)包揽冠亚军;Claude 3.7 Sonnet 的“思考版”则稳居第三,共同构成本次评测的第一梯队,而 DeepSeek-R1 在所有模型中排名仅第七,GPT-4o 排名第八。此外 DeepSeek-V3 在非推理大模型中处于领先位置,而 Qwen2.5 则展现出参数规模与指令遵循能力并非绝对相关的有趣现象。(备注:评测结果来源于 Meeseeks 中文数据)

Meeseeks 支持 中文/英文,已在魔搭社区、GitHub、Huggingface 上线。

下面,让我们一同深入了解 Meeseeks 评测体系及其具体发现。

1. Meeseeks:重新定义大模型“听话”能力评测

Meeseeks 是一个完全基于真实业务数据构建的,专注于评测大模型指令遵循(Instruction-Following)能力的基准测试。它引入了一种创新的评测视角:只关注模型是否严格按照用户指令(Prompt)的要求生成回答,而不评估回答内容本身的知识正确性。为了全面、深入地衡量模型的指令遵循能力,研究人员设计了一套覆盖不同粒度和层面的精细化评测框架。

| 1.1 精细入微的三级评测框架

你可能遇到过这种情况:让模型 “用 50 字介绍北京,别提故宫”,结果它写了 80 字,还顺口夸了句 “故宫雄伟”。这就是典型的 “指令遵循翻车”——不看对错,只看是否按要求来。

Meeseeks 的评测框架从宏观到微观,把这种 “要求” 拆成了三层,像剥洋葱一样细,确保评估的深度与广度。

2. Meeseeks 评测结果

本次 Meeseeks 基准评测清晰地揭示了不同模型在指令遵循与自我纠错能力上的显著差异。评测结果显示,RLLMs(推理语言模型)在所有轮次中均展现出压倒性优势,而一些知名大模型的表现则引发了深入思考。

在经过三轮评测后,各模型的最终排名与表现分析如下:

3. Meeseeks 的独特优势

| 3.1 横向对比:更广、更细、更客观、更高难度

相较于 IF-Eval、Complexbench 等知名的开源指令遵循评测集,Meeseeks 在多个维度上实现了突破,展现出其独特的评测价值。

Meeseeks 通过四个关键特性,构建了其在横向对比中的核心竞争力。

首先是覆盖面更广,其数据源于丰富的真实业务场景,确保了评测的全面性与实用价值。

其次是评测粒度更细,它将单一约束拆解得更为精细,如将“字数遵循”细分为精确值、范围、倍数等多种情况,实现了对模型能力的精准画像。

再者是杜绝主观评测,摒弃了如“以妈妈的口吻”这类模糊指令,所有评测项均为客观可判定标准,保证了结果的一致性。

最后是数据难度更高,其测试用例设计更具挑战性,能有效拉开不同模型间的差距。

| 3.2 纵向创新:革命性的“多轮纠错”模式

Meeseeks 最具突破性的特点:

为了验证该模式的有效性,研究团队选择了一批具有代表性的推理语言模型(RLLMs)和大型语言模型(LLMs)进行了评测。如前文图 1 所示,结果清晰地展示了各模型在不同纠错轮次下的表现。

4. 核心评测洞察

通过对多轮评测数据的深入分析,研究团队得出以下几点关键发现:

  1. 强大的自我纠错潜力:所有模型在接收到反馈后,其指令遵循准确率均有显著提升。例如 Claude-3.7-Sonnet 在第二轮的准确率从 0.359 跃升至 0.573,我们得出结论:不管是 RLLMs 还是 LLMs 在指令遵循场景,都存在强大的自我纠正的能力。
  2. 首轮表现与最终表现的相关性: 模型的第一轮表现(Round 1)与其最终表现(Round 3)并非完全相关。部分模型存在第一轮劣势,但是第三轮优势的情况,这说明了模型自我纠错至正确答案的能力和能一次遵循所有用户指令的能力并非完全相关。
  3. 与部分指令遵循 Benchmark 相悖的是:RLLMs 的指令遵循能力相比 LLMs 更加优异,特别是 o3-mini 这样的 RLLMs 不仅初始表现优异,其后续提升同样显著,最终以绝对优势领跑。我们发现,在大量文案生成任务中,我们发现了一些模型会反复确认当前输出的内容是否与之前重复;在存在字数要求的场景下,RLLMs 甚至会出现 1 你 2 好这样的辅助 index 方法来确认字数,这些给 RLLMs 在指令遵循任务上带来了非常大的优势。
  4. 多轮场景下长思维效益缩减?具备更强推理能力的模型(如 Claude-3.7-Sonnet-thinking)与其对应的标准版本(Claude-3.7-Sonnet)在指令遵循能力上的差距,会随着纠错轮次的增加而逐渐缩小,这表明反馈机制可以在一定程度上代替了 RLLMs 的长思维链带来的效益,有效地让模型逐渐达到自身指令遵循能力的上限。

5. 总结与展望

综上所述,面对当前大模型普遍存在的“不听话”痛点,Meeseeks 基准通过其精细化的三级评测框架、对客观性的严格坚守以及革命性的“多轮纠错”模式,把评测结果不仅揭示了顶尖模型在复杂指令面前的真实短板,也验证了模型强大的自我修正潜力,将指令遵循评测带到了全新的维度。这为模型开发者指明了优化方向:除了提升基础能力,更要强化模型理解并执行修正指令的能力。

目前,对于共计 11 种语言的 Meeseeks 多语言版本已经在开发末期,多语言 Meeseeks 不仅在保证准确率的基础上适配了不同语言,并基于不同语言的特色内容构建了全新的指令遵循内容,会在不远的将来和大家见面!

未来我们将持续专注于高质量评估研究,推动大模型在指令遵循能力上的提升与发展。欢迎关注美团 M17 团队,了解更多关于评测集的内容!

---------- END ----------



招聘信息

ingFang SC", system-ui, -apple-system, "system-ui", "Helvetica Neue", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;font-style: normal;font-variant-ligatures: normal;font-variant-caps: normal;font-weight: 400;letter-spacing: 0em;orphans: 2;text-indent: 0em;text-transform: none;widows: 2;word-spacing: 0px;-webkit-text-stroke-width: 0px;white-space: normal;text-decoration-thickness: initial;text-decoration-style: initial;text-decoration-color: initial;font-size: 16px;line-height: 1.8em;text-align: justify;">基座大模型评测与探索方向(含算法、工程、产品、运营序列)

ingFang SC", system-ui, -apple-system, "system-ui", "Helvetica Neue", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;font-style: normal;font-variant-ligatures: normal;font-variant-caps: normal;font-weight: 400;letter-spacing: 0em;orphans: 2;text-indent: 0em;text-transform: none;widows: 2;word-spacing: 0px;-webkit-text-stroke-width: 0px;white-space: normal;text-decoration-thickness: initial;text-decoration-style: initial;text-decoration-color: initial;font-size: 16px;line-height: 1.8em;text-align: justify;">随着AI下半场的到来,传统的评测范式已经无法适配持续提升的模型能力,针对 ChatBot 模型的 Arena 评测的有效性也遭到质疑,如何面向现阶段以及未来的模型能力进行科学有效的评估本身也是个极具挑战和价值的研究方向。OpenAI 研究者也表示,AI 接下来比拼的不是训练,而是“如何定义并评估真正有用的任务”。

ingFang SC", system-ui, -apple-system, "system-ui", "Helvetica Neue", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;font-style: normal;font-variant-ligatures: normal;font-variant-caps: normal;font-weight: 400;letter-spacing: 0em;orphans: 2;text-indent: 0em;text-transform: none;widows: 2;word-spacing: 0px;-webkit-text-stroke-width: 0px;white-space: normal;text-decoration-thickness: initial;text-decoration-style: initial;text-decoration-color: initial;font-size: 16px;line-height: 1.8em;text-align: justify;">在这样的背景下,美团大模型评测团队以指引通往 AGI 的道路为目标,深耕模型评测研究,系统性的理解大模型当前能力水平及未来技术发展方向,并以此为基础完善模型评测能力矩阵。







欢迎光临 链载Ai (https://www.lianzai.com/) Powered by Discuz! X3.5