微信扫码
与创始人交个朋友
我要投稿
如何透明化评测大模型的各项数学能力如今成了大家的难题,因为开源数据集往往评测角度较为局限,如常用的 GSM8k 专注日常计算,MATH 只专注于高中数学竞赛。
再加上,负责大模型数学部分的产品经理往往对新训练的模型有下面的小小期待:
?想要全面知道从小学,初中到大学每个阶段模型数学表现各怎么样
?中英文能力都要体现
?要是每道题都有知识点标签就好了
?emmm,能不能再考下理论题,天天做应用题也不知道是不是模型基础没打好
✈️测试出的结果要鲁棒,真实反映模型能力
?不想收集一大堆数据集,最好上面的内容能一次测试完(-v-)
.....
在最新的 ACL2024 中,由上海人工智能实验室联合香港中文大学,北京航空航天大学和南京大学提出的 MathBench 打破了大模型数学评测不透明的现状,且已经被 ACL2024 Findings 接收。
Paper:
https://arxiv.org/abs/2405.12209
Github:
https://github.com/open-compass/MathBench
相比传统的数学评测集,MathBench 有以下特点:
多维度的知识框架:MathBench 配有一个多层次知识体系,具有从基础计算,小学到大学的 5 阶段的丰富题目,每阶段都配有相应的3层细粒度知识点,一次评测即能从广度和深度两个维度上掌握模型能力,不留遗憾。
理论与应用兼顾:“基础不牢,地动山摇”。MathBench 分为 MathBench-A(应用能力)和 MathBench-T(理论能力)两个子集,不仅包含实际应用问题,还包含相关领域专家精心收集的基础数学概念和推论题。
双语支持:对于上述的所有知识层次,以及理论应用题,MathBench 都提供中英文题目,且中英题目根据语境学习现状独立收集,拒绝机翻,以保证评测结果的合理性。
鲁棒评测:针对数学评测难以抽取答案的现状,MathBench 中的大部分题目为经过专家标注的选择题,保证了选项合理且有一定的干扰度,并且采用循环评测(CircularEval)作为基础评测方式,模型需要多次答对打乱选项顺序的同一题目才认为该题目被模型所掌握。
(小学与基础运算因有相同知识点体系而合并)
(A代表应用题结果,T代表理论题目)
在应用题上:
GPT-4o领先较大,在高学段尤为明显
部分开源模型实力强劲
如 Llama3-70B-Instruct 和 Qwen1.5-110B-Chat 有着超过 GPT3.5-Turbo-0125,接近 GPT4-0125-Preview 的表现。DeepSeek-Math-7B-RL 作为 7B 量级的开源数学模型表现亮眼,在应用题目上甚至超过了 Qwen-72B-Chat。
GPT-4o 各学段全面领先,展现扎实的基本数学功
作为基本数学理论能力的展现,MathBench-T 中不仅考察模型基本数学知识,还加入常用的推论,以及精心设计的干扰项来迷惑模型,所以模型难以通过简单背诵来得到高分。GPT-4o 在此阶段全面领先各 API 模型,拿下应用理论双第一名?,证明了其不仅基础扎实,且会熟练运用。
理解理论并不代表能够熟练应用
MathBench 应用题在各学段上的平均模型结果,呈现自然梯度趋势
GitHub:
https://github.com/open-compass/
OpenCompass榜单:
https://opencompass.org.cn/home
只需下面一行代码,即可支持百种大模型一键化评测!如 Llama2-7B-Chat 模型进行 MathBench 评测只需要:
# Inference MathBench with hf_llama2_7b_chat modelpython run.py --models hf_llama2_7b_chat --datasets mathbench_gen
53AI,企业落地应用大模型首选服务商
产品:大模型应用平台+智能体定制开发+落地咨询服务
承诺:先做场景POC验证,看到效果再签署服务协议。零风险落地应用大模型,已交付160+中大型企业
2024-03-30
2024-04-26
2024-05-10
2024-04-12
2024-05-28
2024-04-25
2024-05-14
2024-07-18
2024-08-13
2024-04-26