GPT-4o 的数学又双叕进步了？来 MathBench 看看新版 GPT-4o 到底强在哪！

显示全部楼层

随着现代大语言模型（LLMs）如 OpenAI 的 ChatGPT 和 GPT-4 的出现，LLMs 展示了生成类人对话和解决复杂数学难题的非凡能力。从 Meta 在 4 月 18 日发布 Llama3-8B&70B 开始，Qwen 开源的首个百 B 大模型 Qwen-1.5-110B，到深度求索的 MoE 模型 DeepSeek-V2，还有近几日 OpenAI 放出的大招 GPT-4o，号称更低的价格，更强的性能，大家都号称自己的新模型数学能力顶呱呱，但事实真是这样吗？

如何透明化评测大模型的各项数学能力如今成了大家的难题，因为开源数据集往往评测角度较为局限，如常用的 GSM8k 专注日常计算，MATH 只专注于高中数学竞赛。

再加上，负责大模型数学部分的产品经理往往对新训练的模型有下面的小小期待：

?想要全面知道从小学，初中到大学每个阶段模型数学表现各怎么样
?中英文能力都要体现
?要是每道题都有知识点标签就好了
?emmm，能不能再考下理论题，天天做应用题也不知道是不是模型基础没打好
✈️测试出的结果要鲁棒，真实反映模型能力
?不想收集一大堆数据集，最好上面的内容能一次测试完（-v-）
.....

这要求都能满足吗？还真能！

在最新的ACL2024中，由上海人工智能实验室联合香港中文大学，北京航空航天大学和南京大学提出的MathBench打破了大模型数学评测不透明的现状，且已经被ACL2024 Findings接收。

Paper：
https://arxiv.org/abs/2405.12209
Github：
https://github.com/open-compass/MathBench
MathBench LeaderBoard：
https://open-compass.github.io/MathBench

MathBench 结构及特点

正如本文开头所描述的，传统评估 LLMs 数学能力的基准存在一些局限性，如单一视角的解决问题能力评估和缺乏全面的学段分级。MathBench 弥补了这些不足，提供了严格的数学能力评估新基准。

MathBench 整体结构示意

相比传统的数学评测集，MathBench 有以下特点：

多维度的知识框架：MathBench 配有一个多层次知识体系，具有从基础计算，小学到大学的 5 阶段的丰富题目，每阶段都配有相应的3层细粒度知识点，一次评测即能从广度和深度两个维度上掌握模型能力，不留遗憾。
理论与应用兼顾：“基础不牢，地动山摇”。MathBench 分为MathBench-A（应用能力）和MathBench-T（理论能力）两个子集，不仅包含实际应用问题，还包含相关领域专家精心收集的基础数学概念和推论题。
双语支持：对于上述的所有知识层次，以及理论应用题，MathBench 都提供中英文题目，且中英题目根据语境学习现状独立收集，拒绝机翻，以保证评测结果的合理性。
鲁棒评测：针对数学评测难以抽取答案的现状，MathBench 中的大部分题目为经过专家标注的选择题，保证了选项合理且有一定的干扰度，并且采用循环评测（CircularEval）作为基础评测方式，模型需要多次答对打乱选项顺序的同一题目才认为该题目被模型所掌握。
来源可靠：MathBench 中约 80% 题目为新收集的题目，来源大部分为专业考试，如高考、中考等，且经过专门校验。

MathBench的5阶段3层知识点结构

(小学与基础运算因有相同知识点体系而合并)

各大模型在 MathBench 上的表现

下面就让我们看一下在MathBench作为数学能力照妖镜下各模型的表现吧：

总体结果，GPT-4o 优势明显，国产模型紧随其后

MathBench理论与应用分级测评结果

（A代表应用题结果，T代表理论题目）

在应用题上：

GPT-4o领先较大，在高学段尤为明显
部分国产模型，如 Qwen-Max-0428 和 DeepSeek-V2-API 都已经有着超越 GPT4-0125-Preview 的表现，但离最新版的 GPT-4o 仍有不小差距。通过 MathBench 的多阶段细分结果可以发现，差距在较高学段，如高中和大学的题目上尤为明显。如 GPT-4o 在大学阶段的应用题目上虽然只有 54.0的CircularEval 分数，但相对 Qwen-Max-0428 已经有着接近翻倍的表现。
部分开源模型实力强劲
如 Llama3-70B-Instruct 和 Qwen1.5-110B-Chat 有着超过 GPT3.5-Turbo-0125，接近 GPT4-0125-Preview 的表现。DeepSeek-Math-7B-RL 作为 7B 量级的开源数学模型表现亮眼，在应用题目上甚至超过了 Qwen-72B-Chat。

在理论题上：

GPT-4o 各学段全面领先，展现扎实的基本数学功
作为基本数学理论能力的展现，MathBench-T 中不仅考察模型基本数学知识，还加入常用的推论，以及精心设计的干扰项来迷惑模型，所以模型难以通过简单背诵来得到高分。GPT-4o 在此阶段全面领先各 API 模型，拿下应用理论双第一名?，证明了其不仅基础扎实，且会熟练运用。
理解理论并不代表能够熟练应用
如 Qwen-1.5-110B-Chat 虽与 GPT-4o 在理论阶段有着相似的分数，但在应用阶段两者差距较大，可能因为在较高阶段的数学知识上，运用要比理论需要更多的技巧，比如在高中和大学阶段，两者的应用分数差距越来越大，而理论上却没有相似的明显差距。

模型整体分数趋势

下面是应用阶段的多个模型平均分数的整体趋势。

可以发现，在基础运算（Arithmetic）阶段和小学数学（Primary）阶段有着类似的难度，而从初中起，随着学段的增加，模型的平均表现下降明显：

MathBench 应用题在各学段上的平均模型结果，呈现自然梯度趋势

中英文双语言结果对比

下面是众多大语言模型在 MathBench 上的中英双语言结果对比，按语言平均分从从小到大排序。

其中某些模型有着较为明显的语言 Gap，如 MammoTH-13B，MetaMath-Llemma-7B 以及 Llama-3-70B-Instruct 等模型明显偏向于英文，而 GPT-4o 和 GPT-4-0125-Preview 在中英数学上有着相近的表现。

值得注意的是，为了 MathBench 的中英成绩能代表该语言环境下的真实成绩，在收集过程中并没有将题目相互翻译，所以在对比中仅供参考，因为题目不是中英文一一对应的关系。

如何使用 MathBench 进行模型评测？

MathBench 目前支持在OpenCompass中一键评测啦！

司南 OpenCompass 作为行业领先大模型开源评测体系，致力于探索最先进的语言与视觉模型，为工业界和研究社区提供全面、客观、中立的评测参考，从而根据不同能力维度的评测分数指导大模型的优化与进步。同时，司南 OpenCompass 评测过程中所用到的工具链均已在 Github 开源，欢迎使用 OpenCompass 来探索大模型的奥秘！

GitHub:
https://github.com/open-compass/
OpenCompass榜单：
https://opencompass.org.cn/home

只需下面一行代码，即可支持百种大模型一键化评测！如 Llama2-7B-Chat 模型进行 MathBench 评测只需要：

#InferenceMathBenchwithhf_llama2_7b_chatmodelpythonrun.py--modelshf_llama2_7b_chat--datasetsmathbench_gen

MathBench旨在提升 LLMs 数学能力评估的精确性，提供深入理解其知识水平和问题解决能力的细致视角，并支持中英双语评估。

MathBench 涵盖了广泛的数学题目，提供了对理论理解和实际问题解决能力的详细评估。该基准分为五个阶段，从基础算术到大学数学，采用结构化评估模型以适应不同知识水平。每个阶段包含理论问题和应用问题，能测量模型的数学熟练度及其在实际场景中的应用能力。

期待 MathBench 能为研究人员和开发者提供有价值的洞见，推动 LLMs 在数学领域的能力提升！