我要投稿

陶哲轩使用o3 mini一手测评来了：好坏参半

发布日期：2025-03-11 14:59:28 浏览次数： 1639 作者：AI寒武纪

数学大神陶哲轩（Terence Tao）刚发了一篇他使用o 3 mini感受帖子，给大家划个重点

大神也好奇AI搞科研怎么样？

陶哲轩发帖说，最近他在研究图论中的一个“专家级”定理——“三角形移除引理”。这定理有点复杂，咱们普通人听着可能头大。为了搞清楚这个定理的证明，现有三种方法：

1. 传统手撸: 笔和纸，自己硬啃
2. 传统搜索: 用搜索引擎，网上冲浪找答案
3. AI 助手: 直接问大语言模型（LLM）

陶哲轩直接选择了第三种——求助大语言模型，他用的是 o3-mini 模型。结果让他有点惊喜：几秒钟，模型就给出了一个非常靠谱的答案，完美解释了这个定理的推导过程！他还贴出了聊天记录链接，感兴趣的可以直接去看：

https://chatgpt.com/share/67cf13cf-53dc-800e-a382-e4ece8341a6d

大神亲自测试，这波必须点赞！陶哲轩也表示，这次体验让他觉得，对于 快速获取专业领域内的标准论证细节，LLM 真是个好帮手。之后自己再去验证一下模型的答案是否正确就行

但是！AI也不是万能的

尝到甜头的陶哲轩，又追问了模型另一个“三角形移除引理”的经典推论——鲁萨-塞迈雷迪 (Ruzsa-Szemeredi) (6,3) 定理。这回，模型的表现就没那么完美了

• 初次尝试： 模型给出的策略方向是对的——用超图对图形编码。但是，关键细节完全缺失
• 深入追问： 陶哲轩不断引导，模型依然没能抓住要点，比如如何用 (6,3) 条件来限制编码图中不需要的三角形，以及如何先简化到线性超图这种核心思路。

最后，陶哲轩还是通过传统搜索先找到了答案，然后用非常明确的提示引导模型，才让模型最终 勉强给出了一个基本正确的推导证明。大神都得先自己搞懂，才能“教”会AI，这多少有点无奈

陶哲轩的总结和反思

两次测试下来，陶哲轩的感受是：

对于研究级别的数学任务，目前的模型表现波动很大。有时 “在用户给出粗略指导下就能真正有用”，有时却 “需要用户给出大量详细指导才能发挥作用”。更强大的模型，可能前一种情况会更多一些。

他认为，对于那些非常标准的问题，比如维基百科或 StackOverflow 上能轻松找到答案的，LLM 表现出色。但 问题越偏门、越冷门，模型的成功率就 逐渐下降。想要模型给出有用的结果，就需要更多的用户引导，或者更高的算力支持

这是 Terence Tao 的推文全文翻译：

陶哲轩
@tao@mathstodon.xyz
加州大学洛杉矶分校 #数学教授

今天我尝试重构图论中一个（对专家而言）标准的结果的证明，即鲁兹萨-塞迈雷迪“三角形移除引理”意味着，由 n 个导出匹配组成的 n 个顶点的图只包含 o(n^2) 条边。我当时的主要三个选项是：尝试用笔和纸进行推导；进行传统的网络搜索；或者询问大型语言模型。在这种情况下，我选择了第三个选项（使用 o3-mini），并在几秒钟内收到了一个非常好的答案，正确地解释了这个推论：https://chatgpt.com/share/67cf13cf-53dc-800e-a382-e4ece8341a6d

这满足了我眼前的需求 - 并指出了 LLM 的一个良好用例，即快速提供自己领域内一些标准论证的细节，然后可以验证其正确性 - 但后来我感到好奇，并要求模型也解释三角形移除引理的另一个标准推论，即鲁兹萨-塞迈雷迪关于具有特定禁用配置的 3-均匀超图大小的 (6,3) 定理。在这里，结果明显好坏参半（见上方链接）。最初的答案有正确的总体策略 - 使用超图来编码图 - 但缺乏所有关键细节。当我进一步追问时，它没有提及两个最重要的想法 - 使用 (6,3) 条件来限制编码图中不需要的三角形，或最初简化为线性超图 - 但通过额外的提示，它能够重构这些组成部分，并最终提供了该推导的基本上正确的证明。但我不得不通过相当明确的提示来引导它，我只能这样做，因为我事先通过传统的网络搜索查找了证明。(1/2)

我的总体感觉是，至少对于研究级别的数学任务而言，目前的模型在“仅需用户提供广泛指导就真正有用”和“在用户提供大量详细指导后才有用”之间波动，其中，最强大的模型在前者类别中拥有更高比例的答案。对于那些非常标准的问题，它们似乎特别有效，以至于它们的答案基本上可以在诸如维基百科或 StackOverflow 等现有资源中找到；但是，随着人们转向越来越晦涩的问题类型，成功率会逐渐降低（尽管是以较为渐进的方式），并且需要更多的用户指导（或更高的计算资源）才能使 LLM 的输出达到可用的形式。(2/2