我要投稿

大模型的数学推理能力为何难解初一题？

发布日期：2025-03-20 21:30:25 浏览次数： 1538 来源：磊叔的技术博客

近年来，大模型在数学推理方面的进步引人注目，各大厂商纷纷宣称自家模型的数学能力领先。然而，面对一道初一数学题目，我们却发现，大模型的表现依旧参差不齐，甚至让人感到意外的“笨拙”。

题目信息

下面是一道初一寒假作业里面的题目，各位看官可以先自我思考一下这个问题，看看自己能够搞定....

题目描述：实验室里,水平桌面上有甲、乙、丙三个圆柱形容器(容器足够高)，它们的底面半径之比为1:2:1，用两个相同的管子在容器的 5 cm 高度处连通(即管子底端离容器底 5 cm)现三个容器中，只有甲中有水，水位高 1 cm，如图所示，若每分钟同时向乙和丙注人相同量的水，开始注水 1 min，乙的水位上升 5/6 cm，求开始注人多少分钟的水后，甲与乙的水位高度之差是 0.5 cm。

想必各位心里已经有自己的思考了，仔细琢磨一下，这里面主要的点是圆的面积、体积计算和一元一次方程；额外一点是连通器原理。这两个问题如果有大概的了解或者常识，应该比较容易解出来，即使不能全部情况都考虑到，起码可以解出 1-2 个。

答案放在最后

在完成解答之后，我把这个问题顺手抛给了大模型。

模型解题过程

这里还是沿用我之前这篇用一句话来摸这些大模型的底文章里面的几个模型来测试。 prompt 也比较简单，如下所示：

请你解答下面这道初中数学题，并给出详细的分析过程，题目如下：
----
题目描述：实验室里,水平桌面上有甲、乙、丙三个圆柱形容器(容器足够高)，它们的底面半径之比为1:2:1，用两个相同的管子在容器的 5 cm 高度处连通(即管子底端离容器底 5 cm)现三个容器中，只有甲中有水，水位高 1 cm，若每分钟同时向乙和丙注人相同量的水，开始注水 1 min，乙的水位上升 5/6 cm，求开始注人多少分钟的水后，甲与乙的水位高度之差是 0.5 cm。
----

为了避免模型从网上爬原题，所有模型 chat 框可显示关闭联网搜索的均全部关闭。

因为大多数模型推理的过程实在是太长，用长截图或者分片截图的方式放在文章里面看起来太费劲，索性就用录屏的方式展示出来。

deepseek

最近使用官网 chat，好像回到了单论对话，80% 以上的场景都是第一次问可以，追问就服务器繁忙

所以网上关于 deepseek 服务器繁忙，请稍后再试 的段子和图片也是满天飞（网络图片，仅供参考娱乐）。

白天一直拒绝我，在晚上重拾到第 13 次时，它开始理我了....

通义千问

ChatGPT

讯飞星火

通义千问

对比

但从结果来看，deepseek 解出了一个，另一个是错误的。其他几个模型基本是全军覆没...；

模型	结果	推理错误总结
deepseek	解出 1 个，另一个错，还有一个场景没思考到	推理过程最长，耗时也最长，他在各种条件和场景中不断切换和自我否定；不过整个推理过程相对来说很细，可以帮助学生去理解这个思考的过程。
Chatgpt	错	速度很快；主要失误在于“过早地让丙容器把水倒进乙容器”，忽略了“若另一边容器水面尚未抵达管口，开口容器并不会自动把水从高处流到低处”的事实，从而让乙的水位“被加速”上升，导致最终计算的时间偏小
Kimi 1.5	错	忽略了水位变化的不同阶段，以及可能的水位限制。
通义千问	错	假设了每分钟注入的水量使乙的水位上升 5/6 cm，并且根据体积关系推导出甲的水位上升量。然而，这个过程中忽略了丙容器的影响。
讯飞星火	错	没有正确捕捉到水位变化的动态过程，特别是涉及多个容器和不同时间段的情况。这可能导致方程的解不符合实际情况。

当我再次将正确的答案投递给他们进行自我分析和对比之后，Chatgpt 仅做了简单的分析，没有再次计算这个题目，比较符合我给定的 prompt；讯飞星火和 Kimi 1.5 重新分析了整个过程，并且计算出了正确的答案。通义千问解出的结果和 deepseek 第一次一样的结果；而 deepseek 又又又又又又又又开始繁忙了....