微信扫码
添加专属顾问
我要投稿
数学大师陶哲轩亲测AI助手o3 mini,体验好坏参半,值得关注! 核心内容: 1. 陶哲轩用o3 mini解决图论定理,快速获得满意答案 2. 进一步追问经典推论时,模型表现不佳,细节缺失 3. 陶哲轩总结:AI助手在快速获取论证细节方面有优势,但并非万能
数学大神陶哲轩(Terence Tao)刚发了一篇他使用o 3 mini感受帖子,给大家划个重点
陶哲轩发帖说,最近他在研究图论中的一个“专家级”定理——“三角形移除引理”。这定理有点复杂,咱们普通人听着可能头大。 为了搞清楚这个定理的证明,现有三种方法:
陶哲轩直接选择了第三种——求助大语言模型,他用的是 o3-mini
模型。 结果让他有点惊喜:几秒钟,模型就给出了一个非常靠谱的答案,完美解释了这个定理的推导过程!他还贴出了聊天记录链接,感兴趣的可以直接去看:
https://chatgpt.com/share/67cf13cf-53dc-800e-a382-e4ece8341a6d
大神亲自测试,这波必须点赞! 陶哲轩也表示,这次体验让他觉得,对于 快速获取专业领域内的标准论证细节,LLM 真是个好帮手。 之后自己再去验证一下模型的答案是否正确就行
尝到甜头的陶哲轩,又追问了模型另一个“三角形移除引理”的经典推论——鲁萨-塞迈雷迪 (Ruzsa-Szemeredi) (6,3) 定理。 这回,模型的表现就没那么完美了
最后,陶哲轩还是通过传统搜索先找到了答案,然后用非常明确的提示引导模型,才让模型最终 勉强给出了一个基本正确的推导证明。 大神都得先自己搞懂,才能“教”会AI,这多少有点无奈
陶哲轩的总结和反思
两次测试下来,陶哲轩的感受是:
对于研究级别的数学任务,目前的模型表现波动很大。 有时 “在用户给出粗略指导下就能真正有用”, 有时却 “需要用户给出大量详细指导才能发挥作用”。 更强大的模型,可能前一种情况会更多一些。
他认为, 对于那些非常标准的问题,比如维基百科或 StackOverflow 上能轻松找到答案的,LLM 表现出色。 但 问题越偏门、越冷门,模型的成功率就 逐渐下降。 想要模型给出有用的结果,就需要更多的用户引导,或者更高的算力支持
这是 Terence Tao 的推文全文翻译:
陶哲轩
@tao@mathstodon.xyz
加州大学洛杉矶分校 #数学 教授
今天我尝试重构图论中一个(对专家而言)标准的结果的证明,即鲁兹萨-塞迈雷迪“三角形移除引理”意味着,由 n 个导出匹配组成的 n 个顶点的图只包含 o(n^2) 条边。我当时的主要三个选项是:尝试用笔和纸进行推导;进行传统的网络搜索;或者询问大型语言模型。 在这种情况下,我选择了第三个选项(使用 o3-mini),并在几秒钟内收到了一个非常好的答案,正确地解释了这个推论:https://chatgpt.com/share/67cf13cf-53dc-800e-a382-e4ece8341a6d
这满足了我眼前的需求 - 并指出了 LLM 的一个良好用例,即快速提供自己领域内一些标准论证的细节,然后可以验证其正确性 - 但后来我感到好奇,并要求模型也解释三角形移除引理的另一个标准推论,即鲁兹萨-塞迈雷迪关于具有特定禁用配置的 3-均匀超图大小的 (6,3) 定理。 在这里,结果明显好坏参半(见上方链接)。 最初的答案有正确的总体策略 - 使用超图来编码图 - 但缺乏所有关键细节。 当我进一步追问时,它没有提及两个最重要的想法 - 使用 (6,3) 条件来限制编码图中不需要的三角形,或最初简化为线性超图 - 但通过额外的提示,它能够重构这些组成部分,并最终提供了该推导的基本上正确的证明。 但我不得不通过相当明确的提示来引导它,我只能这样做,因为我事先通过传统的网络搜索查找了证明。(1/2)
我的总体感觉是,至少对于研究级别的数学任务而言,目前的模型在“仅需用户提供广泛指导就真正有用”和“在用户提供大量详细指导后才有用”之间波动,其中,最强大的模型在前者类别中拥有更高比例的答案。 对于那些非常标准的问题,它们似乎特别有效,以至于它们的答案基本上可以在诸如维基百科或 StackOverflow 等现有资源中找到;但是,随着人们转向越来越晦涩的问题类型,成功率会逐渐降低(尽管是以较为渐进的方式),并且需要更多的用户指导(或更高的计算资源)才能使 LLM 的输出达到可用的形式。(2/2
53AI,企业落地大模型首选服务商
产品:场景落地咨询+大模型应用平台+行业解决方案
承诺:免费场景POC验证,效果验证后签署服务协议。零风险落地应用大模型,已交付160+中大型企业
2024-09-04
2024-10-27
2024-07-18
2024-05-05
2024-06-20
2024-06-13
2024-07-09
2024-07-09
2024-05-19
2024-07-07
2025-03-11
2025-03-05
2025-03-03
2025-03-02
2025-02-28
2025-02-24
2025-02-23
2025-02-15