返回顶部
热门问答 更多热门问答
技术文章 更多技术文章

通用大模型基准测评「常见问题」解答

[复制链接]
链载Ai 显示全部楼层 发表于 昨天 22:07 |阅读模式 打印 上一主题 下一主题
大家好!针对模型开发团队与 AI 用户近期对 SuperCLUE 7 月通用大模型测评提出的高频问题,我们已整理并汇总如下,供参考。

1. 不同任务的评价标准是什么

具体任务的评价标准可以参考《中文大模型基准测评2025年上半年报告》,现在将提问比率较高的问题汇总如下:

  • 代码生成的单元测试评分方式:代码生成类任务(包括web coding)中的题目会通过设置测试用例来检验模型答案的准确性,最终依据测试用例的通过率折合成分数作为模型在代码生成部分的得分。

  • 智能体Agent的可执行环境评分方式:智能体Agent类题目会设置好模型答题所需的工具调用环境,比如API接口、可供调用的函数等,并且会在环境设置中对以上工具的调用方式和注意事项加以说明,如参数设置、调用顺序等。因此,我们对于模型在该部分答案的考察会严格检验其是否遵循了环境设置规则,依据调用的准确性和最终结果的准确性来评判其答案的准确性。

  • 数学推理、科学推理类题目的评分方式:数学推理、科学推理类题目会提供参考答案作为评分依据,评判过程只考察模型答案的最终结果是否正确,目前没有对题目的解答过程予以评分。

2. 如何确保模型不过拟合测评数据?是否有具体的措施,比如设置题目更新比例?

SuperCLUE方面防止模型过拟合的方式是每一期公测都会对全部的题目进行更新,更新比例为100%。此外,每一期会对30%-40%的子任务进行调整,具体的调整方法有题目难度的变化、二级子任务类型的调整等。

3. 测评任务类别是否会改变?题目更新频率、难度增长策略是怎样的?

  • 测评体系包括测评任务类别会依据测评阶段AI领域的热点话题,比如重点研发方向、关键攻克领域、热门关注话题等进行调整与完善,旨在全面展现最新的AI发展动态与趋势,真实反映大模型性能与实力。

  • 题目的更新频率为每两个月更新一次,即每次月榜都会使用全新的题目参与测评。

  • 题目难度的增长策略与AI总体的水平提升相一致,会依据测评阶段大模型的总体实力区间来设定略高于其水平难度的题目,一般而言会以半年为单位来提升题目难度,后续会依据AI发展实际情况来调整频率。

4. 题目或数据的难度水平如何设定,比如数学推理、科学推理等任务的难度级别是怎样设定的?

为适配当下大模型的性能与总体发展趋势,月榜题目的 总体难度较高,以数学推理、科学推理(包括物理学、化学、生物学)为例,会选择本科及以上的竞赛题目作为原始资料,经改编为全新题目后作为月榜题目使用。

5. 评价模型的选择依据是什么?是否通过小批量试验验证其评价能力?

SuperCLUE会选择测评阶段综合能力最强的模型作为评价模型(裁判模型);评价模型正式投入使用之前会通过小批量实验来验证其评价能力。

6. 开源模型的调用方式是什么?参数设置采用官方默认还是推荐设置?

开源模型会优先使用官方API,无官方API时会采用本地部署方式或使用第三方API;一般情况下,模型的参数设置会采用官方默认版本,也会依据实际情况来调整参数设置以适配测评体系需求,但会保证各模型参数设置上的公平与公正。

7. 模型回复错误具体是由什么因素导致的?比如知识储备、逻辑框架、模型记忆等。

不同能力区间的模型的回复错误原因有所不同。总的来看,如果以高、中、低来划分模型能力区间,那么高水准模型主要的出错点在于模型记忆,比如引用某个参数或计算某些复杂的数值时会出错,但是该模型的知识储备非常丰富、各类学科的逻辑框架与思维方式臻于完善;中水准模型除上述模型记忆出错外,模型的知识储备相对匮乏,主要体现在集中欠缺某一领域的数据与信息,此外各学科的逻辑框架与思维方式相对完善,但是不太具备学科风格与答题思路;低水准模型问题则更大,模型记忆严重不足,知识储备欠缺明显,逻辑框架较为混乱,总体表现为拼凑答案而不是分析与思考问题。

8. 测评所用数据的具体构造方法是什么?

SuperCLUE方面会参考公开的测试集标准以及真实的题目材料,加入我们的部分新特性,并将其作为题目的原始资料,然后依据自动化出题流程和人工多重复审来做题目加工。


回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

链载AI是专业的生成式人工智能教程平台。提供Stable Diffusion、Midjourney AI绘画教程,Suno AI音乐生成指南,以及Runway、Pika等AI视频制作与动画生成实战案例。从提示词编写到参数调整,手把手助您从入门到精通。
  • 官方手机版

  • 微信公众号

  • 商务合作

  • Powered by Discuz! X3.5 | Copyright © 2025-2025. | 链载Ai
  • 桂ICP备2024021734号 | 营业执照 | |广西笔趣文化传媒有限公司|| QQ