|
随着现代大语言模型(LLMs)如 OpenAI 的 ChatGPT 和 GPT-4 的出现,LLMs 展示了生成类人对话和解决复杂数学难题的非凡能力。从 Meta 在 4 月 18 日发布 Llama3-8B&70B 开始,Qwen 开源的首个百 B 大模型 Qwen-1.5-110B,到深度求索的 MoE 模型 DeepSeek-V2,还有近几日 OpenAI 放出的大招 GPT-4o,号称更低的价格,更强的性能,大家都号称自己的新模型数学能力顶呱呱,但事实真是这样吗? 如何透明化评测大模型的各项数学能力如今成了大家的难题,因为开源数据集往往评测角度较为局限,如常用的 GSM8k 专注日常计算,MATH 只专注于高中数学竞赛。 再加上,负责大模型数学部分的产品经理往往对新训练的模型有下面的小小期待: 
?想要全面知道从小学,初中到大学每个阶段模型数学表现各怎么样 ?中英文能力都要体现 ?要是每道题都有知识点标签就好了 ?emmm,能不能再考下理论题,天天做应用题也不知道是不是模型基础没打好 ✈️测试出的结果要鲁棒,真实反映模型能力 ?不想收集一大堆数据集,最好上面的内容能一次测试完(-v-) .....

在最新的ACL2024中,由上海人工智能实验室联合香港中文大学,北京航空航天大学和南京大学提出的MathBench打破了大模型数学评测不透明的现状,且已经被ACL2024 Findings接收。  正如本文开头所描述的,传统评估 LLMs 数学能力的基准存在一些局限性,如单一视角的解决问题能力评估和缺乏全面的学段分级。MathBench 弥补了这些不足,提供了严格的数学能力评估新基准。相比传统的数学评测集,MathBench 有以下特点: 多维度的知识框架:MathBench 配有一个多层次知识体系,具有从基础计算,小学到大学的 5 阶段的丰富题目,每阶段都配有相应的3层细粒度知识点,一次评测即能从广度和深度两个维度上掌握模型能力,不留遗憾。 理论与应用兼顾:“基础不牢,地动山摇”。MathBench 分为MathBench-A(应用能力)和MathBench-T(理论能力)两个子集,不仅包含实际应用问题,还包含相关领域专家精心收集的基础数学概念和推论题。 双语支持:对于上述的所有知识层次,以及理论应用题,MathBench 都提供中英文题目,且中英题目根据语境学习现状独立收集,拒绝机翻,以保证评测结果的合理性。 鲁棒评测:针对数学评测难以抽取答案的现状,MathBench 中的大部分题目为经过专家标注的选择题,保证了选项合理且有一定的干扰度,并且采用循环评测(CircularEval)作为基础评测方式,模型需要多次答对打乱选项顺序的同一题目才认为该题目被模型所掌握。 - 来源可靠:MathBench 中约 80% 题目为新收集的题目,来源大部分为专业考试,如高考、中考等,且经过专门校验。

(小学与基础运算因有相同知识点体系而合并) 下面就让我们看一下在MathBench作为数学能力照妖镜下各模型的表现吧:总体结果,GPT-4o 优势明显,国产模型紧随其后
(A代表应用题结果,T代表理论题目) 在应用题上:
可以发现,在基础运算(Arithmetic)阶段和小学数学(Primary)阶段有着类似的难度,而从初中起,随着学段的增加,模型的平均表现下降明显:
MathBench 应用题在各学段上的平均模型结果,呈现自然梯度趋势 下面是众多大语言模型在 MathBench 上的中英双语言结果对比,按语言平均分从从小到大排序。其中某些模型有着较为明显的语言 Gap,如 MammoTH-13B,MetaMath-Llemma-7B 以及 Llama-3-70B-Instruct 等模型明显偏向于英文,而 GPT-4o 和 GPT-4-0125-Preview 在中英数学上有着相近的表现。值得注意的是,为了 MathBench 的中英成绩能代表该语言环境下的真实成绩,在收集过程中并没有将题目相互翻译,所以在对比中仅供参考,因为题目不是中英文一一对应的关系。MathBench 目前支持在OpenCompass中一键评测啦!司南 OpenCompass 作为行业领先大模型开源评测体系,致力于探索最先进的语言与视觉模型,为工业界和研究社区提供全面、客观、中立的评测参考,从而根据不同能力维度的评测分数指导大模型的优化与进步。同时,司南 OpenCompass 评测过程中所用到的工具链均已在 Github 开源,欢迎使用 OpenCompass 来探索大模型的奥秘!只需下面一行代码,即可支持百种大模型一键化评测!如 Llama2-7B-Chat 模型进行 MathBench 评测只需要: #InferenceMathBenchwithhf_llama2_7b_chatmodelpythonrun.py--modelshf_llama2_7b_chat--datasetsmathbench_gen MathBench旨在提升 LLMs 数学能力评估的精确性,提供深入理解其知识水平和问题解决能力的细致视角,并支持中英双语评估。MathBench 涵盖了广泛的数学题目,提供了对理论理解和实际问题解决能力的详细评估。该基准分为五个阶段,从基础算术到大学数学,采用结构化评估模型以适应不同知识水平。每个阶段包含理论问题和应用问题,能测量模型的数学熟练度及其在实际场景中的应用能力。期待 MathBench 能为研究人员和开发者提供有价值的洞见,推动 LLMs 在数学领域的能力提升! |