微信扫码
添加专属顾问
我要投稿
这是阿里关于开放域推理模型的创新成果,没有之一。 核心内容: 1. Marco-o1 模型的目标与特点 2. 采用的创新推理策略 3. 三种训练集的组成
今天分享的是阿里的一个工作:
Marco-o1: Towards Open Reasoning Models for Open-Ended Solutions.
Marco-o1:面向开放的推理模型以获得开放式解决方案。
论文链接:https://arxiv.org/pdf/2411.14405
代码链接:https://github.com/AIDC-AI/Marco-o1
这篇论文介绍了一个名为 Marco-o1 的大型推理模型,该模型旨在解决开放式推理问题。与传统的大型推理模型专注于具有标准答案的学科(如数学、物理和编程)不同,Marco-o1 更注重于那些没有明确标准答案和难以量化奖励的开放性问题。为了实现这一目标,Marco-o1 采用了思维链微调、蒙特卡洛树搜索、反思机制以及针对复杂现实世界问题解决任务优化的创新推理策略。论文的核心问题是探讨 Marco-o1 模型是否能够有效地推广到更广泛的领域,在这些领域中,标准不明确且奖励难以衡量。
Marco-o1采用三种训练集组成。分别是:
其中开放域的CoT数据是相对比较难生成的。正是因为很多开放的场景中,我们很难量化模型的回答准确性或者步骤的准确性,所以很难复现一些数学任务、代码任务等的方法。
本文结合蒙特卡洛树搜索和大语言模型来扩展解决方案空间,并生成用于开放域推理任务的CoT数据集。下面将逐步解释文中提到的关键概念及其应用。
在MCTS框架中,每个节点表示一个推理状态,也就是问题解决过程中的某个具体阶段。在每个节点上,模型会基于当前的推理状态做出选择。
MCTS的每个节点可以通过不同的“动作”来迁移到另一个状态。这里的动作是由LLM生成的输出,也就是模型根据当前推理状态生成的潜在步骤或小步骤。
在回合(rollout)阶段,LLM会继续进行推理,直到达到一个终态(例如,生成一个完整的答案或者解决方案)。回合的主要目标是模拟推理过程,并计算每个步骤的“奖励”来评价推理路径的质量。
回合阶段:LLM会从当前推理状态继续推理,生成更多令牌(token),直到达到最终的终态。这个过程类似于进行一个完整的推理链。
奖励计算:奖励分数(reward score)用于评价每个回合中生成的推理路径的质量。奖励分数通过计算每个令牌的置信度分数来获得,最终将所有令牌的置信度分数取平均值,作为回合的总体奖励。
为了解决推理过程中的不确定性和评估不同路径的优劣,本文引入了置信度分数(confidence score)来评价每个生成的令牌的可靠性。
置信度分数:对于每个生成的令牌,LLM会计算其对数概率,并与前5个最可能的替代令牌的对数概率进行比较,使用softmax函数将其转化为一个归一化的置信度分数。公式如下:
其中,是第个令牌的置信度分数,是第个令牌的对数概率,是前5个最可能令牌的对数概率。这样,置信度分数反映了当前令牌相对于其他候选令牌的相对概率。
奖励分数:所有令牌的置信度分数被平均后,得出整个回合的奖励分数(reward score)。奖励分数的公式为:
其中,是回合中生成的令牌总数,是整个回合的奖励分数。更高的奖励分数表示该推理路径更有信心,可能更准确。
通过计算每个回合的奖励分数,MCTS能够有效地评估并选择更有前景的推理路径。奖励分数作为一个反馈信号,指导搜索算法向更有信心和可能准确的推理链条靠近。
结合MCTS和LLM的策略能够显著扩展解决方案空间。MCTS通过多次模拟不同的推理路径(回合),让模型能够探索一个巨大的推理空间,并根据计算出来的置信度分数选择最有可能的路径。
除了以上MCTS的常规流程以外,Marco还引入了反思机制。这部分工作探索了通过调整粒度和引入反思机制来提高MCTS框架下推理能力的策略。主要流程包括:
这些策略共同扩展了模型的推理空间,增强了模型解决复杂问题时的推理能力,特别是在细节推理和自我纠错方面。
这张图展示了Marco-o1-CoT左侧)和Marco-o1-MCTS (step)(右侧)在解决同一个下载时间计算问题时的表现对比。两者的主要区别在于推理粒度的不同,Marco-o1-MCTS (step)通过步骤级别的细化推理探索更广泛的解决方案空间,最终得出了正确的答案。
Carla正在下载一个200GB的文件。通常情况下,她可以以每分钟2GB的速度下载,但下载到40%时,Windows强制安装更新,更新过程需要20分钟。更新完成后,Carla必须重新开始下载文件。我们需要计算她总共需要多少时间来下载这个文件。
Marco-o1-CoT方法使用较大粒度的推理步骤来解决问题,但由于推理粒度较粗,它错过了某些重要的细节,导致推理结果不准确。
60分钟 + 20分钟 = 80分钟
,并未考虑重新下载整个200GB文件的情况。最终,Marco-o1-CoT得出的结论是总共需要120分钟
来下载文件,但这个答案显然是错误的。
Marco-o1-MCTS (step)方法将推理过程分解为更细的步骤,使模型能够更全面地探索解决方案空间,避免了漏掉重要细节,最终得出了正确的答案。
通过细化推理过程,Marco-o1-MCTS (step) 得出了正确的结论:总共需要160分钟
来下载整个文件。
53AI,企业落地大模型首选服务商
产品:场景落地咨询+大模型应用平台+行业解决方案
承诺:免费场景POC验证,效果验证后签署服务协议。零风险落地应用大模型,已交付160+中大型企业
2025-04-03
Open R1 项目进展第三期
2025-04-03
最好用的OCR来了?Mistral AI OCR介绍
2025-04-03
2个百度T11推出超级智能体火爆硅谷!免费使用无需邀请码,靠AI搜索功底估值已破38亿
2025-04-02
Transformer到底解决什么问题?
2025-04-02
AI大模型的2种模型能力Function call 和ReAct
2025-04-02
Playwright + DeepSeek实战:如何让AI“看懂”网站页面内容?自动定位页面元素?
2025-04-02
AI Agents的未来是事件驱动的
2025-04-02
MCP 之后,软件行业的新蛋糕与新危机
2024-08-13
2024-06-13
2024-08-21
2024-09-23
2024-07-31
2024-05-28
2024-08-04
2024-04-26
2024-07-09
2024-09-17
2025-04-02
2025-04-02
2025-04-01
2025-04-01
2025-04-01
2025-03-30
2025-03-30
2025-03-28