微信扫码
添加专属顾问
我要投稿
大模型在数学推理上的软肋:初一数学题的挑战。核心内容:1. 大模型在数学推理能力上的表现为何不尽人意2. 初一数学题目的详细解析和解题思路3. 不同大模型解题过程的对比和错误总结
近年来,大模型在数学推理方面的进步引人注目,各大厂商纷纷宣称自家模型的数学能力领先。然而,面对一道初一数学题目,我们却发现,大模型的表现依旧参差不齐,甚至让人感到意外的“笨拙”。
下面是一道初一寒假作业里面的题目,各位看官可以先自我思考一下这个问题,看看自己能够搞定....
题目描述:实验室里,水平桌面上有甲、乙、丙三个圆柱形容器(容器足够高),它们的底面半径之比为1:2:1,用两个相同的管子在容器的 5 cm 高度处连通(即管子底端离容器底 5 cm)现三个容器中,只有甲中有水,水位高 1 cm,如图所示,若每分钟同时向乙和丙注人相同量的水,开始注水 1 min,乙的水位上升 5/6 cm,求开始注人多少分钟的水后,甲与乙的水位高度之差是 0.5 cm。
想必各位心里已经有自己的思考了,仔细琢磨一下,这里面主要的点是圆的面积、体积计算和一元一次方程;额外一点是连通器原理。这两个问题如果有大概的了解或者常识,应该比较容易解出来,即使不能全部情况都考虑到,起码可以解出 1-2 个。
答案放在最后
在完成解答之后,我把这个问题顺手抛给了大模型。
这里还是沿用我之前这篇 用一句话来摸这些大模型的底 文章里面的几个模型来测试。 prompt 也比较简单,如下所示:
请你解答下面这道初中数学题,并给出详细的分析过程,题目如下:
----
题目描述:实验室里,水平桌面上有甲、乙、丙三个圆柱形容器(容器足够高),它们的底面半径之比为1:2:1,用两个相同的管子在容器的 5 cm 高度处连通(即管子底端离容器底 5 cm)现三个容器中,只有甲中有水,水位高 1 cm,若每分钟同时向乙和丙注人相同量的水,开始注水 1 min,乙的水位上升 5/6 cm,求开始注人多少分钟的水后,甲与乙的水位高度之差是 0.5 cm。
----
为了避免模型从网上爬原题,所有模型 chat 框可显示关闭联网搜索的均全部关闭。
因为大多数模型推理的过程实在是太长,用长截图或者分片截图的方式放在文章里面看起来太费劲,索性就用录屏的方式展示出来。
最近使用官网 chat,好像回到了单论对话,80% 以上的场景都是第一次问可以,追问就服务器繁忙
但从结果来看,deepseek 解出了一个,另一个是错误的。其他几个模型基本是全军覆没...;
当我再次将正确的答案投递给他们进行自我分析和对比之后,Chatgpt 仅做了简单的分析,没有再次计算这个题目,比较符合我给定的 prompt;讯飞星火和 Kimi 1.5 重新分析了整个过程,并且计算出了正确的答案。通义千问解出的结果和 deepseek 第一次一样的结果;而 deepseek 又又又又又又又又开始繁忙了....
可能是题目问题,抑或是涉及物理现象的数学计算时,再或者是这些大模型的训练数据集中并没有初中的题目,所以导致容易出现推理冗长、计算错误、物理理解偏差等问题。或许这并不意味着大模型的数学能力毫无价值,而是说明其在特定场景下仍需要进一步优化。
对于 AI 研究者而言,如何让大模型在数学推理上变得更加精准、高效;年初 deepseek 的爆火给商业上增加了更多的可能性,也给技术上带来了很多的创新,但是当我们抛开那几个已经被用烂的用来刷榜的数据集之后,真正的强化学习,自我推理可能还有很长的路要走。
甲、乙、丙三个圆柱形容器(容器足够高),底面半径之比为1:2:1,且注水1分钟,乙的水位上升5/6cm,所以注水一分钟,丙的水位上升为 :
5/6 * 2^2 = 10 / 3 cm
设开始注入 t 分钟的水量后,甲与乙的水位高度之差是 0.5cm;甲与乙的水位高度之差是 0.5cm 有三种情况 :
53AI,企业落地大模型首选服务商
产品:场景落地咨询+大模型应用平台+行业解决方案
承诺:免费场景POC验证,效果验证后签署服务协议。零风险落地应用大模型,已交付160+中大型企业
2025-03-21
ChatGPT o3与DeepSeek R1性能对比,谁更强?
2025-03-21
Model Context Protocol (MCP) 与 传统 Function Calling 到底什么区别,怎么选?
2025-03-21
Claude 3.7 Sonnet发布-全球首款混合推理模型
2025-03-21
Anthropic 的模型上下文协议(MCP)适合您吗?
2025-03-21
vLLM:高性能大语言模型推理引擎全面解析
2025-03-21
2025年关于医疗+AI的最新思考(5):葛均波院士发布“观心”专科大模型的启示
2025-03-21
EP.80 | 谷歌Gemini史诗级更新!
2025-03-21
萌新指南|手把手教你Cherry Studio配置MCP,10分钟让大模型学会上网截图!
2024-08-13
2024-06-13
2024-09-23
2024-08-21
2024-07-31
2024-05-28
2024-08-04
2024-04-26
2024-07-09
2024-09-17
2025-03-21
2025-03-21
2025-03-21
2025-03-20
2025-03-20
2025-03-20
2025-03-19
2025-03-19