链载Ai

标题: 通用大模型基准测评「常见问题」解答 [打印本页]

作者: 链载Ai    时间: 前天 19:19
标题: 通用大模型基准测评「常见问题」解答
大家好!针对模型开发团队与 AI 用户近期对 SuperCLUE 7 月通用大模型测评提出的高频问题,我们已整理并汇总如下,供参考。

1. 不同任务的评价标准是什么

具体任务的评价标准可以参考《中文大模型基准测评2025年上半年报告》,现在将提问比率较高的问题汇总如下:

2. 如何确保模型不过拟合测评数据?是否有具体的措施,比如设置题目更新比例?

SuperCLUE方面防止模型过拟合的方式是每一期公测都会对全部的题目进行更新,更新比例为100%。此外,每一期会对30%-40%的子任务进行调整,具体的调整方法有题目难度的变化、二级子任务类型的调整等。

3. 测评任务类别是否会改变?题目更新频率、难度增长策略是怎样的?

4. 题目或数据的难度水平如何设定,比如数学推理、科学推理等任务的难度级别是怎样设定的?

为适配当下大模型的性能与总体发展趋势,月榜题目的 总体难度较高,以数学推理、科学推理(包括物理学、化学、生物学)为例,会选择本科及以上的竞赛题目作为原始资料,经改编为全新题目后作为月榜题目使用。

5. 评价模型的选择依据是什么?是否通过小批量试验验证其评价能力?

SuperCLUE会选择测评阶段综合能力最强的模型作为评价模型(裁判模型);评价模型正式投入使用之前会通过小批量实验来验证其评价能力。

6. 开源模型的调用方式是什么?参数设置采用官方默认还是推荐设置?

开源模型会优先使用官方API,无官方API时会采用本地部署方式或使用第三方API;一般情况下,模型的参数设置会采用官方默认版本,也会依据实际情况来调整参数设置以适配测评体系需求,但会保证各模型参数设置上的公平与公正。

7. 模型回复错误具体是由什么因素导致的?比如知识储备、逻辑框架、模型记忆等。

不同能力区间的模型的回复错误原因有所不同。总的来看,如果以高、中、低来划分模型能力区间,那么高水准模型主要的出错点在于模型记忆,比如引用某个参数或计算某些复杂的数值时会出错,但是该模型的知识储备非常丰富、各类学科的逻辑框架与思维方式臻于完善;中水准模型除上述模型记忆出错外,模型的知识储备相对匮乏,主要体现在集中欠缺某一领域的数据与信息,此外各学科的逻辑框架与思维方式相对完善,但是不太具备学科风格与答题思路;低水准模型问题则更大,模型记忆严重不足,知识储备欠缺明显,逻辑框架较为混乱,总体表现为拼凑答案而不是分析与思考问题。

8. 测评所用数据的具体构造方法是什么?

SuperCLUE方面会参考公开的测试集标准以及真实的题目材料,加入我们的部分新特性,并将其作为题目的原始资料,然后依据自动化出题流程和人工多重复审来做题目加工。







欢迎光临 链载Ai (https://www.lianzai.com/) Powered by Discuz! X3.5