我要投稿

重磅！复旦大学联合上海人工智能实验室初步实现传说中的“Q*”算法

发布日期：2024-06-17 22:09:19 浏览次数： 2312 作者：AI寒武纪

Q* 被验证了！小型的 LLM 在数学方面和前沿模型一样优秀‍

通过结合一种创新算法，Llama3 8B 在数学基准测试 GSM8K 上达到了 96.7% 的惊人成绩！这比 GPT-4、Claude 和 Gemini 都要好，而且它的参数量仅为这些模型的二百分之一！

Q* 相信大家都不会陌生，被称为OpenAI内部实现大模型数学和复杂推理重大突破的神秘算法，不过Q*迄今为止一直是一个传说，Q*究竟如何我们并不得而知

就在这两天，复旦大学联合上海人工智能实验室悄悄提交了一篇重磅论文，题为《LLaMa-3 8B使用蒙特卡洛树自我优化获取GPT-4级别的数学奥林匹克解题方法：一份技术报告》。论文中，科研人员开发出一种名为MCTSr的算法，可以显著提高大模型在数学和复杂推理方面的能力。这是自Q*这种神秘算法传说以来首次有类似技术被公开发表，并且其有效性通过了可靠评估

这是一篇探讨如何将大型语言模型(LLM)与蒙特卡罗树搜索(MCTS)算法结合,以提高LLM在复杂数学推理任务中的性能的研究论文，文章提出了一种创新算法MCTSr,旨在解决LLM在复杂计算和逻辑推理中存在的准确性和可靠性不足的问题

论文由复旦大学和上海人工智能实验室提交到了arxiv，论文第一作者Zhang Di 复旦PhD在读，曾经有多份大厂工作实习经历

传统的MCTS算法无法很好地与LLM的随机生成性质相结合。因此,作者提出了改进的UCB公式和动态剪枝策略,以更好地平衡探索和利用,优化决策框架。MCTSr算法构建一棵蒙特卡罗搜索树,通过选择、自完善、自评估和反向传播等迭代过程不断优化答案‍

在自完善环节,LLM根据提示对当前答案提出改进意见,并生成优化版本。在自评估中,LLM会对完善后的答案进行打分,并采用约束条件确保评分的严格性和可靠性‍

实验表明,在GSM8K、GSM Hard、MATH等数据集上,使用MCTSr算法能显著提高LLaMa-3 8B模型解决数学问题的成功率,尤其是在奥林匹克级别的数学竞赛题目上,也取得了显著进步,接近最新的封闭源模型GPT-4的表现‍

从最基本的Zero-Shot到逐步增强的不同模型配置,包括One-turn Self-Refine和新提出的MCTSr算法在不同迭代次数(rollouts)下的表现如下（相对简单的MATH数据集）

奥数级别的数据集中表现：AIME（美国高中奥数竞赛）， Math Odyssey（谷歌推出的极端复杂推理数据集），OlympiadBench（国际奥数）‍‍‍‍‍

这项研究证实了结合MCTS和LLM能够增强复杂推理能力,为LLM在逻辑决策和数学等领域的应用铺平了道路。不过,MCTSr算法目前还处于初级阶段,在更广泛场景下的适用性有待进一步探索。此外,算法各个环节都有改进空间,需要持续优化以提高实用性和有效性

期待MCTSr与最强的开源模型结合的威力

53AI，企业落地大模型首选服务商

产品：场景落地咨询+大模型应用平台+行业解决方案

承诺：免费场景POC验证，效果验证后签署服务协议。零风险落地应用大模型，已交付160+中大型企业

相关资讯

2025-04-11

AI Agent 摩尔定律：每7个月能力翻倍，带来软件智能大爆炸

2025-04-11

教你解决GPT4o无法使用新版生图功能的教程

2025-04-11

阿里云业内首发MCP，用户可无代码5分钟创建智能体！AI应用最后一公里

2025-04-11

谁是MCP 的 AI 好搭档？

2025-04-11

从零开始的 MCP 开发

2025-04-11

OceanBase 现已支持 MCP：打破数据孤岛，加速 AI 创新

2025-04-11

大模型联网搜索在to B智能体的应用

2025-04-11

ChatGPT 记忆增强，AI 更懂我了！

了解更多

了解更多

160+中大型企业正在使用53AI

立即咨询预约演示

把握AI发展的机遇，共同探索、共同进步

2025-01-22

如何打造基于GenAI的员工服务机器人

2025-01-22

热点资讯

本地部署大模型？看这篇就够了，Ollama 部署和实战

2024-08-13

16个具有“联网搜索”功能的AI：总有一个适合你！

2024-06-13

Cursor 一个真正让程序员产生危机感的 AI 编程工具

2024-08-21

OpenAI o1与GPT4o的对比分析

2024-09-23

大模型｜“上下文长度”和“上下文窗口”不再傻傻分不清楚！

2024-07-31

一文带你了解大模型——智能体（Agent）

2024-05-28

50+个AI大模型在不同领域的应用案例

2024-08-04

全面对比dify、coze、streamlit、chainlit

2024-04-26

【深度】AI搜索产品深度分析-搜索原理和商业模式分析

2024-07-09

一文读懂OpenAI新发布o1系列大模型

2024-09-17

大家都在问

谁是MCP 的 AI 好搭档？

2025-04-11

大模型如何保证输出json格式？

2025-04-11

阿里百炼MCP一键部署简单到颠覆想象！字节Coze会否闪电跟进？

2025-04-10

All in 医疗，百川胜算几何？

2025-04-08

如何理解政务大模型？

2025-04-07

伯克利最新研究：为什么多 Agent 系统总是“高期待、低表现”？

2025-04-07

刚刚，DeepSeek公布推理时Scaling新论文，R2要来了？

2025-04-07

【AI知识点】什么是 Agentic Workflows？

2025-04-07

热门标签

内容创作大模型技术个人提效 langchain llamaindex 多模态技术 RAG技术智能客服知识图谱模型微调 RAGFlow coze Dify Fastgpt Bisheng Qanything AI+汽车 AI+金融 AI+工业 AI+培训 AI+SaaS 提示词框架提示词技巧 AI+电商 AI面试数字员工 ChatBI 知识管理开源大模型智能营销智能硬件智能化改造 AI+医疗 MaxKB

应聘简历请发送至： ceo@53ai.com

友情链接：

CopyRight © 2012-2024 深圳市博思协创网络科技有限公司版权所有

粤ICP备17114055号

广州：广州市华景路37号(华景软件园)暨南大学科技大厦6楼（整层）

深圳：深圳市福田区泰然四路29号天安创新科技广场一期A座1204

上海：上海市浦东新区金新路58号1602室

微信扫码
和创始人交个朋友

联系我们

售前咨询

预约演示

微信扫码

添加专属顾问

回到顶部