Skywork AI | 提出新框架：Q*，旨在解决大模型多步推理（Multi-step）错误问题

发布日期：2024-06-24 22:23:17 浏览次数： 1574

点击上方“AINLPer“，设为星标

更多干货，第一时间送达

引言

大模型(LLMs)在执行多步推理(Multi-step)时会出现的错误、幻觉和不一致陈述等问题。为此本文作者提出了一个新的框架：，通过学习一个Q值模型作为启发式函数，可引导LLMs选择最合适的下一步行动。该方法无需对每个任务进行LLMs微调，降低了计算资源开销，同时也避免了灾难性遗忘，在多种数据集上获得了优异的结果。https://arxiv.org/pdf/2406.14283

背景介绍

大模型（LLMs）在推理任务上展现出了卓越能力，例如如数学推理、代码生成和行动规划等。然而，LLMs在进行多步骤推理时，由于其自回归生成的特性，随着推理步骤数量的增加，很容易引入错误、幻觉和不一致的陈述。文章指出，LLMs的自回归生成过程可以被视为“System 1”思维模式，这种思维快速、本能但准确性较低。

最近大多数研究都侧重于通过以下方式提高LLM的“System 1”能力：1）构建更广泛专业知识复杂提示，来引导LLM的潜在能力，而无需修改参数。2）使用大量特定任务的语料来对LLM进行微调，但是该方法的代价会增加计算资源并且存在灾难遗忘的风险；3）通过训练奖励模型来对候选答案进行排序。

另一方面，解决复杂的推理问题需要更深入、更审慎和更合乎逻辑的思维步骤，即“System 2”模式。以解决数学应用题为例，任何错误的中间推理步骤（例如计算错误、误解）都可能导致错误的最终答案。当前增强“System 2” 推理能力的主要方法，包括使用基本树搜索算法（例如 BFS 或 DFS）、蒙特卡洛树搜索 (MCTS) 和 A* 算法等。

尽管如此，这些方法中使用的效用函数通常需要针对每个特定任务进行费力的专业知识设计，很难扩展到新的场景。此外，在解决具有许多推理步骤的问题时，使用MCTS进行推理时，在解决多步骤推理问题时需要大量的模拟，这显著减慢了整体的解码过程。

基于以上背景，本文作者提出了框架，旨在通过深思熟虑的规划来提高大模型（LLMs）在多步骤推理方面的能力。与现有的推理方法不同，框架不依赖于领域知识来设计启发式函数。而是通过使用即插即用的Q值模型作为启发式函数，它能够指导LLMs选择最有可能的下一步，从而有效解决多步推理任务。

框架

在使用大模型进行多步推理时，如果先前的任何步骤不正确，LLMs可能会在随后的推理过程中引入错误、幻觉和不一致的陈述，这可能导致问题无法解决。由于LLMs以固定的计算量生成每个标记，它们无法进行深入的深思熟虑，这对于解决复杂推理问题是必不可少的。为此，本文框架基于搜索算法，引导LLMs在执行多步推理时选择最有可能的下一步，而无需为每个任务提前进行微调。将寻找给定问题最合适的推理序列视为一个启发式搜索过程。在这个过程中，每个状态都有一个与之关联的值，该值是启发式值和从初始状态到当前状态的累积奖励的加权和。

其中，是平衡和的系数。具体来说，Q*提出使用基于过程的奖励函数来计算累积效用，该函数编码了推理任务的先验知识或偏好：

这里，是一个聚合函数，这种基于过程的奖励函数可以通过人类反馈、真实情况、规则学习。此外，使用状态的最优Q值作为启发式值。换句话说，值由下式给出：

（5）

由于在所有可能的下一步推理步骤中最大化是不切实际的，在实践中，Q*将替代方案限制为LLM返回的前K个步骤，即：

通过这种方法，Q*能够有效地指导LLMs在多步推理任务中进行决策，提高了推理过程的准确性和效率，同时避免了对模型进行大规模微调的需要。

关于「最优Q值」，可采用以下三种方法来得到：

「离线强化学习」：使用Fitted Q-iteration方法，通过迭代过程学习代理Q值模型。
「基于rollout的学习」：从当前状态执行随机rollout或MCTS，选择累积奖励最高的推理序列作为Q值标签。
「使用更强的LLMs」：使用更强大的LLM完成轨迹，估计状态-动作对的最优Q值。

一旦获得代理Q值模型，就可以将其代入公式 (5) 来计算每个状态的值，并使用执行最佳优先搜索。如下图所示具体来说，是维护一个开放列表，它最初包含输入问题，以及一个封闭列表来记录访问过的状态，在每一步中，从开放列表中选择具有最大值的状态，并通过使用 LLM 策略查询前个最佳替代方案来扩展选定的状态。之后，开放列表会更新，并重复该过程，直到达到最终状态。最后，我们提取最终状态的答案部分作为结果。

实验结果

为验证了框架的有效性，实验主要在三个不同的数据集上进行，分别是GSM8K、MATH和MBPP，涵盖了数学推理和代码生成任务。可以看处该框架能显著提升LLMs在多步推理任务中的表现。无论是数学问题解答还是代码生成，都通过深思熟虑的规划，有效地帮助模型规避了推理过程中的错误和逻辑不一致性。

年轻人！来一起搞AI吗?

如果你看见AI对商业世界的变革，欢迎来和我们一起探索~

岗位：销售经理

查看详情

岗位：项目经理

查看详情

岗位：产品经理

查看详情

岗位：测试工程师

查看详情

160+中大型企业正在使用53AI

立即咨询申请演示

百度智能云邀53AI：共创AI新纪元，启航智能新时代

2024-05-27

钉钉恒星计划：53AI与百余位企业家及钉钉生态伙伴，共议“AI 浪潮下的新机遇”

2024-05-22

热点资讯

神经网络算法 - 一文搞懂模型预训练Pre-training

2024-04-24

最强 GPT 免费使用！GPT4O 开启多模态新时代！

2024-05-14

实测：本地跑llama3:70B需要什么配置

2024-04-24

超简单在本地部署Llama3的方案

2024-04-23

“大数据+”医疗

2024-04-11

全民AI时代：手把手教你用Ollama & AnythingLLM搭建AI知识库，无需编程，跟着做就行！

2024-04-26

RAG系列04：使用ReRank进行重排序

2024-03-22

吴恩达站台畅聊Agent Workflow 以及 4 种主流设计模式，LLM应用开发的新热点

2024-03-29

OLLama详细的 api 介绍不完全指南 python 直接调用 OLLama api 翻译助手演示

2024-04-12

MaxKB：基于LLM大语言模型开箱即用的知识库问答系统

2024-04-25

大家都在问

实用指南｜如何提升 RAG Pipeline 效果？

2024-07-03

实测：开源轻量化模型Gemma 2 在 A4000 GPU 上表现如何？

2024-07-02

研发AI产品过程中，没有自研的数据处理以及机器学习平台时，可以使用哪些平台？

2024-07-02

为什么很多人都放弃LangChain了？

2024-07-01

ChatGPT、Claude的数据分析能力已经到了何种水平？

2024-07-01

【RAG论文】检索信息中的噪音是如何影响大模型生成的？

2024-07-01

AI大模型：开源还是闭源？

2024-06-30

langchain创始人分享：什么是Agent？

2024-06-30

企业大模型落地应用平台

全员+AI

业务+AI

AIx业务

大模型咨询

大模型定制

引言

背景介绍

框架

实验结果

推荐阅读

年轻人！来一起搞AI吗?

岗位：销售经理

岗位：项目经理

岗位：产品经理

岗位：测试工程师

相关资讯

160+中大型企业正在使用53AI

百度智能云邀53AI：共创AI新纪元，启航智能新时代

钉钉恒星计划：53AI与百余位企业家及钉钉生态伙伴，共议“AI 浪潮下的新机遇”

热点资讯

神经网络算法 - 一文搞懂模型预训练Pre-training

最强 GPT 免费使用！GPT4O 开启多模态新时代！

实测：本地跑llama3:70B需要什么配置

超简单在本地部署Llama3的方案

“大数据+”医疗

全民AI时代：手把手教你用Ollama & AnythingLLM搭建AI知识库，无需编程，跟着做就行！

RAG系列04：使用ReRank进行重排序

吴恩达站台畅聊Agent Workflow 以及 4 种主流设计模式，LLM应用开发的新热点

OLLama详细的 api 介绍不完全指南 python 直接调用 OLLama api 翻译助手演示

MaxKB：基于LLM大语言模型开箱即用的知识库问答系统

大家都在问

实用指南｜如何提升 RAG Pipeline 效果？

实测：开源轻量化模型Gemma 2 在 A4000 GPU 上表现如何？

研发AI产品过程中，没有自研的数据处理以及机器学习平台时，可以使用哪些平台？

为什么很多人都放弃LangChain了？

ChatGPT、Claude的数据分析能力已经到了何种水平？

【RAG论文】检索信息中的噪音是如何影响大模型生成的？

AI大模型：开源还是闭源？

langchain创始人分享：什么是Agent？

企业大模型落地应用平台

全员+AI

业务+AI

AIx业务

大模型咨询

大模型定制

引言

背景介绍

框架

实验结果

推荐阅读

年轻人！来一起搞AI吗?

岗位：销售经理

岗位：项目经理

岗位：产品经理

岗位：测试工程师

相关资讯

160+中大型企业正在使用53AI

百度智能云邀53AI：共创AI新纪元，启航智能新时代

钉钉恒星计划：53AI与百余位企业家及钉钉生态伙伴，共议“AI 浪潮下的新机遇”

热点资讯

神经网络算法 - 一文搞懂模型预训练Pre-training

最强 GPT 免费使用！GPT4O 开启多模态新时代！

实测：本地跑llama3:70B需要什么配置

超简单在本地部署Llama3的方案

“大数据+”医疗

全民AI时代：手把手教你用Ollama & AnythingLLM搭建AI知识库，无需编程，跟着做就行！

RAG系列04：使用ReRank进行重排序

吴恩达站台畅聊Agent Workflow 以及 4 种主流设计模式，LLM应用开发的新热点

OLLama详细的 api 介绍 不完全指南 python 直接调用 OLLama api 翻译助手演示

MaxKB：基于LLM大语言模型开箱即用的知识库问答系统

大家都在问

实用指南 ｜ 如何提升 RAG Pipeline 效果？

实测：开源轻量化模型Gemma 2 在 A4000 GPU 上表现如何？

研发AI产品过程中，没有自研的数据处理以及机器学习平台时，可以使用哪些平台？

为什么很多人都放弃LangChain了？

ChatGPT、Claude的数据分析能力已经到了何种水平？

【RAG论文】检索信息中的噪音是如何影响大模型生成的？

AI大模型：开源还是闭源？

langchain创始人分享：什么是Agent？

OLLama详细的 api 介绍不完全指南 python 直接调用 OLLama api 翻译助手演示

实用指南｜如何提升 RAG Pipeline 效果？