AI知识库

53AI知识库

学习大模型的前沿技术与行业应用场景


陶哲轩使用o3 mini一手测评来了:好坏参半

发布日期:2025-03-11 14:59:28 浏览次数: 1542 来源:AI寒武纪
推荐语

数学大师陶哲轩亲测AI助手o3 mini,体验好坏参半,值得关注!
核心内容:
1. 陶哲轩用o3 mini解决图论定理,快速获得满意答案
2. 进一步追问经典推论时,模型表现不佳,细节缺失
3. 陶哲轩总结:AI助手在快速获取论证细节方面有优势,但并非万能

杨芳贤
53A创始人/腾讯云(TVP)最具价值专家


 

数学大神陶哲轩(Terence Tao)刚发了一篇他使用o 3 mini感受帖子,给大家划个重点


大神也好奇AI搞科研怎么样?

陶哲轩发帖说,最近他在研究图论中的一个“专家级”定理——“三角形移除引理”。这定理有点复杂,咱们普通人听着可能头大。 为了搞清楚这个定理的证明,现有三种方法:

  1. 1. 传统手撸: 笔和纸,自己硬啃
  2. 2. 传统搜索: 用搜索引擎,网上冲浪找答案
  3. 3. AI 助手: 直接问大语言模型(LLM)

陶哲轩直接选择了第三种——求助大语言模型,他用的是 o3-mini 模型。 结果让他有点惊喜:几秒钟,模型就给出了一个非常靠谱的答案,完美解释了这个定理的推导过程!他还贴出了聊天记录链接,感兴趣的可以直接去看:

https://chatgpt.com/share/67cf13cf-53dc-800e-a382-e4ece8341a6d

大神亲自测试,这波必须点赞! 陶哲轩也表示,这次体验让他觉得,对于 快速获取专业领域内的标准论证细节,LLM 真是个好帮手。 之后自己再去验证一下模型的答案是否正确就行

但是!AI也不是万能的

尝到甜头的陶哲轩,又追问了模型另一个“三角形移除引理”的经典推论——鲁萨-塞迈雷迪 (Ruzsa-Szemeredi) (6,3) 定理。 这回,模型的表现就没那么完美了

  • • 初次尝试: 模型给出的策略方向是对的——用超图对图形编码。 但是,关键细节完全缺失
  • • 深入追问: 陶哲轩不断引导,模型依然没能抓住要点,比如如何用 (6,3) 条件来限制编码图中不需要的三角形,以及如何先简化到线性超图这种核心思路。

最后,陶哲轩还是通过传统搜索先找到了答案,然后用非常明确的提示引导模型,才让模型最终 勉强给出了一个基本正确的推导证明。 大神都得先自己搞懂,才能“教”会AI,这多少有点无奈

陶哲轩的总结和反思

两次测试下来,陶哲轩的感受是:

对于研究级别的数学任务,目前的模型表现波动很大。 有时 “在用户给出粗略指导下就能真正有用”, 有时却 “需要用户给出大量详细指导才能发挥作用”。 更强大的模型,可能前一种情况会更多一些。

他认为, 对于那些非常标准的问题,比如维基百科或 StackOverflow 上能轻松找到答案的,LLM 表现出色。 但 问题越偏门、越冷门,模型的成功率就 逐渐下降。 想要模型给出有用的结果,就需要更多的用户引导,或者更高的算力支持

 

 

这是 Terence Tao 的推文全文翻译:


陶哲轩
@tao@mathstodon.xyz
加州大学洛杉矶分校 #数学 教授

今天我尝试重构图论中一个(对专家而言)标准的结果的证明,即鲁兹萨-塞迈雷迪“三角形移除引理”意味着,由 n 个导出匹配组成的 n 个顶点的图只包含 o(n^2) 条边。我当时的主要三个选项是:尝试用笔和纸进行推导;进行传统的网络搜索;或者询问大型语言模型。 在这种情况下,我选择了第三个选项(使用 o3-mini),并在几秒钟内收到了一个非常好的答案,正确地解释了这个推论:https://chatgpt.com/share/67cf13cf-53dc-800e-a382-e4ece8341a6d

这满足了我眼前的需求 - 并指出了 LLM 的一个良好用例,即快速提供自己领域内一些标准论证的细节,然后可以验证其正确性 - 但后来我感到好奇,并要求模型也解释三角形移除引理的另一个标准推论,即鲁兹萨-塞迈雷迪关于具有特定禁用配置的 3-均匀超图大小的 (6,3) 定理。 在这里,结果明显好坏参半(见上方链接)。 最初的答案有正确的总体策略 - 使用超图来编码图 - 但缺乏所有关键细节。 当我进一步追问时,它没有提及两个最重要的想法 - 使用 (6,3) 条件来限制编码图中不需要的三角形,或最初简化为线性超图 - 但通过额外的提示,它能够重构这些组成部分,并最终提供了该推导的基本上正确的证明。 但我不得不通过相当明确的提示来引导它,我只能这样做,因为我事先通过传统的网络搜索查找了证明。(1/2)

我的总体感觉是,至少对于研究级别的数学任务而言,目前的模型在“仅需用户提供广泛指导就真正有用”和“在用户提供大量详细指导后才有用”之间波动,其中,最强大的模型在前者类别中拥有更高比例的答案。 对于那些非常标准的问题,它们似乎特别有效,以至于它们的答案基本上可以在诸如维基百科或 StackOverflow 等现有资源中找到;但是,随着人们转向越来越晦涩的问题类型,成功率会逐渐降低(尽管是以较为渐进的方式),并且需要更多的用户指导(或更高的计算资源)才能使 LLM 的输出达到可用的形式。(2/2



53AI,企业落地大模型首选服务商

产品:场景落地咨询+大模型应用平台+行业解决方案

承诺:免费场景POC验证,效果验证后签署服务协议。零风险落地应用大模型,已交付160+中大型企业

联系我们

售前咨询
186 6662 7370
预约演示
185 8882 0121

微信扫码

添加专属顾问

回到顶部

加载中...

扫码咨询