支持私有云部署
AI知识库

53AI知识库

学习大模型的前沿技术与行业应用场景


大模型的数学推理能力为何难解初一题?

发布日期:2025-03-20 21:30:25 浏览次数: 1538 来源:磊叔的技术博客
推荐语

大模型在数学推理上的软肋:初一数学题的挑战。

核心内容:
1. 大模型在数学推理能力上的表现为何不尽人意
2. 初一数学题目的详细解析和解题思路
3. 不同大模型解题过程的对比和错误总结

杨芳贤
53A创始人/腾讯云(TVP)最具价值专家

 

近年来,大模型在数学推理方面的进步引人注目,各大厂商纷纷宣称自家模型的数学能力领先。然而,面对一道初一数学题目,我们却发现,大模型的表现依旧参差不齐,甚至让人感到意外的“笨拙”。

题目信息

下面是一道初一寒假作业里面的题目,各位看官可以先自我思考一下这个问题,看看自己能够搞定....

题目描述:实验室里,水平桌面上有甲、乙、丙三个圆柱形容器(容器足够高),它们的底面半径之比为1:2:1,用两个相同的管子在容器的 5 cm 高度处连通(即管子底端离容器底 5 cm)现三个容器中,只有甲中有水,水位高 1 cm,如图所示,若每分钟同时向乙和丙注人相同量的水,开始注水 1 min,乙的水位上升 5/6 cm,求开始注人多少分钟的水后,甲与乙的水位高度之差是 0.5 cm。

想必各位心里已经有自己的思考了,仔细琢磨一下,这里面主要的点是圆的面积、体积计算和一元一次方程;额外一点是连通器原理。这两个问题如果有大概的了解或者常识,应该比较容易解出来,即使不能全部情况都考虑到,起码可以解出 1-2 个。

答案放在最后

在完成解答之后,我把这个问题顺手抛给了大模型

模型解题过程

这里还是沿用我之前这篇 用一句话来摸这些大模型的底 文章里面的几个模型来测试。 prompt 也比较简单,如下所示:

请你解答下面这道初中数学题,并给出详细的分析过程,题目如下:
----
题目描述:实验室里,水平桌面上有甲、乙、丙三个圆柱形容器(容器足够高),它们的底面半径之比为1:2:1,用两个相同的管子在容器的 5 cm 高度处连通(即管子底端离容器底 5 cm)现三个容器中,只有甲中有水,水位高 1 cm,若每分钟同时向乙和丙注人相同量的水,开始注水 1 min,乙的水位上升 5/6 cm,求开始注人多少分钟的水后,甲与乙的水位高度之差是 0.5 cm。
----

为了避免模型从网上爬原题,所有模型 chat 框可显示关闭联网搜索的均全部关闭。

 

因为大多数模型推理的过程实在是太长,用长截图或者分片截图的方式放在文章里面看起来太费劲,索性就用录屏的方式展示出来。

 

 

deepseek

 

最近使用官网 chat,好像回到了单论对话,80% 以上的场景都是第一次问可以,追问就服务器繁忙

image-20250213161516606
所以网上关于 deepseek 服务器繁忙,请稍后再试 的段子和图片也是满天飞(网络图片,仅供参考娱乐)。

白天一直拒绝我,在晚上重拾到第 13 次时,它开始理我了....


 

 

通义千问

ChatGPT

讯飞星火

通义千问


 

对比

但从结果来看,deepseek 解出了一个,另一个是错误的。其他几个模型基本是全军覆没...;

模型
结果
推理错误总结
deepseek
解出 1 个,另一个错,还有一个场景没思考到
推理过程最长,耗时也最长,他在各种条件和场景中不断切换和自我否定;不过整个推理过程相对来说很细,可以帮助学生去理解这个思考的过程。
Chatgpt
速度很快;主要失误在于“过早地让丙容器把水倒进乙容器”,忽略了“若另一边容器水面尚未抵达管口,开口容器并不会自动把水从高处流到低处”的事实,从而让乙的水位“被加速”上升,导致最终计算的时间偏小
Kimi 1.5
忽略了水位变化的不同阶段,以及可能的水位限制。
通义千问
假设了每分钟注入的水量使乙的水位上升 5/6 cm,并且根据体积关系推导出甲的水位上升量。然而,这个过程中忽略了丙容器的影响。
讯飞星火
没有正确捕捉到水位变化的动态过程,特别是涉及多个容器和不同时间段的情况。这可能导致方程的解不符合实际情况。

当我再次将正确的答案投递给他们进行自我分析和对比之后,Chatgpt 仅做了简单的分析,没有再次计算这个题目,比较符合我给定的 prompt;讯飞星火和 Kimi 1.5 重新分析了整个过程,并且计算出了正确的答案。通义千问解出的结果和 deepseek 第一次一样的结果;而 deepseek 又又又又又又又又开始繁忙了....

 

 

一些思考

可能是题目问题,抑或是涉及物理现象的数学计算时,再或者是这些大模型的训练数据集中并没有初中的题目,所以导致容易出现推理冗长、计算错误、物理理解偏差等问题。或许这并不意味着大模型的数学能力毫无价值,而是说明其在特定场景下仍需要进一步优化。

对于 AI 研究者而言,如何让大模型在数学推理上变得更加精准、高效;年初 deepseek 的爆火给商业上增加了更多的可能性,也给技术上带来了很多的创新,但是当我们抛开那几个已经被用烂的用来刷榜的数据集之后,真正的强化学习,自我推理可能还有很长的路要走。

 

 

原题答案

甲、乙、丙三个圆柱形容器(容器足够高),底面半径之比为1:2:1,且注水1分钟,乙的水位上升5/6cm,所以注水一分钟,丙的水位上升为 :

5/6 * 2^2 = 10 / 3 cm

设开始注入 t 分钟的水量后,甲与乙的水位高度之差是 0.5cm;甲与乙的水位高度之差是 0.5cm 有三种情况 :

image-20250212215844747
image-20250212215802309
image-20250212215819622

 


 


 


53AI,企业落地大模型首选服务商

产品:场景落地咨询+大模型应用平台+行业解决方案

承诺:免费场景POC验证,效果验证后签署服务协议。零风险落地应用大模型,已交付160+中大型企业

联系我们

售前咨询
186 6662 7370
预约演示
185 8882 0121

微信扫码

添加专属顾问

回到顶部

加载中...

扫码咨询