我要投稿

数学推理增强！微软 | 提出数据合成框架：KPDDS，微调Mistral-7B性能超34B模型！

发布日期：2024-04-18 08:21:22 浏览次数： 2134 作者：AINLPer

引言

在数学推理领域，大型语言模型（LLMs）的性能受限于高质量训练数据。为此，本文提出关键点驱动的数据合成（KPDDS）框架，它通过分析真实数据中的关键点和示例对来生成问答对。基于此框架作者创建了KPMath数学问题数据集，并通过与额外的推理密集型数据结合，形成了KPMath-Plus数据集。在KPMath-Plus上微调的Mistral-7B模型在MATH测试集上达到了39.3%的零样本PASS@1准确率，不仅超过了7B模型，还超过了34B模型。https://arxiv.org/pdf/2403.02333.pdf

研究背景

在人工智能领域，大型语言模型（LLMs）如GPT-4、Gemini和Mistral等，因其在自然语言处理任务中的卓越表现而受到广泛关注。这些模型通过在大规模文本数据上进行训练，学会了理解和生成自然语言。然而，「尽管LLMs在许多领域表现出色，它们在复杂推理任务，尤其是数学推理方面的能力仍然有限」。数学推理要求模型不仅要理解问题，还要能够执行逻辑推理和数学计算，这超出了LLMs通常的训练范围。

现有的数学推理数据集，如OpenWebMath和MathPile，通常来源于互联网，这些数据在质量和相关性上存在问题。另一方面，手动注释的高质量数据集，如MATH数据集，虽然质量较高，但数量有限，且往往缺乏详细的推理步骤。为了提升LLMs在数学推理方面的表现，研究者们尝试了多种策略，包括对现有数据集进行增强，以及从已有知识概念中生成新问题。这些方法主要依赖于结构化知识，然而这些知识可能与现有数据集的分布不一致，如果没有示例说明就很难理解这些概念。

KPDDS介绍

为了解决以上问题，本文提出了一种新的数据合成框架——关键点驱动的数据合成（KPDDS）框架，旨在解决大型语言模型（LLMs）在数学推理任务中面临的数据质量和数量不足的问题。KPDDS的核心思想是利用关键点（Key Points, KPs）和示例对（exemplar pairs）从真实数据源中合成问答对，以提高数据的质量和可扩展性。如下图所示，KPDDS系统地划分为两个主要阶段：知识构建（Knowledge Construction）和实践生成（Practice Synthesis）。「知识构建」 首先，从数学问题集合中精心挑选出一组种子问题，这些问题代表了数学推理的多样性和复杂性。接着，利用大型语言模型如GPT-4对这些种子问题进行深入分析，识别出与问题相关的数学主题和关键点，这些关键点可能包括数学公式的应用、解题策略、定理证明等。

为了确保数据的质量和一致性，对提取的主题和关键点进行去重处理，并应用聚类算法将相似的问题和解题策略归类，形成紧密相关且逻辑连贯的聚类。最终，基于这些聚类结果，构建关键点数学实践（MPKP）数据集，该数据集不仅包含了问题的数学主题，还涵盖了解题过程中的关键点，为后续的问题生成提供了结构化的知识和概念框架。最后，对MPKP数据集进行优化，确保数据的质量和一致性，为KPDDS框架的后续步骤打下坚实的基础。这一过程对于提升大型语言模型在数学推理任务上的性能至关重要。

「实践生成」 首先，该步骤利用从种子问题中提取的主题和关键点，结合示例问题，作为生成新问题的输入。通过大型语言模型如GPT-4，基于这些输入生成覆盖多个数学领域的问题，确保问题的新颖性和多样性。随后，对生成的问题进行严格的质量评估，通过问题质量评分（PQS）系统筛选出符合标准的高质量问题。

接着，为每个问题生成一系列可能的答案选项，并采用共识投票机制来确定最可靠的答案。最后，将这些问题与答案配对，构建问答对，并进行语言上的改写以增加数据集的多样性，同时确保答案的正确性。这一步骤不仅为训练和微调大型语言模型提供了丰富的资源，而且显著提升了模型在数学推理任务上的表现，

KPMath-Plus数据集

KPMath-Plus数据集在KPMath的基础上整合了其他数据源，如MMIQC和MathInstruct-CoT。如下图所示：KPMath-Plus数据集的生成涉及数据清洗和格式化，以确保数据集的一致性和完整性。最后，对整合后的数据集进行优化，平衡不同主题和关键点的分布，形成最终的KPMath-Plus数据集。这个数据集不仅包含了KPMath的所有内容，还额外包含了其他数据源的信息，为模型提供了更全面的数学推理训练材料，有助于提升模型在解决复杂数学问题方面的能力。

实验结果

通过在KPMath-Plus数据集上微调的Mistral-7B模型，在MATH测试集上实现了显著的性能提升。其中零样本PASS@1准确率达到了39.3%，不仅超过了7B模型，还超过了34B模型。如下图，对模型在MATH测试集的不同子主题（如代数、几何、数论等）上的性能进行了分析。微调后的模型在各个子主题上都实现了系统性的提升，这表明KPMath-Plus数据集在多个数学领域内都具有较好的泛化能力。