AI知识库

53AI知识库

学习大模型的前沿技术与行业应用场景


数学推理增强!微软 | 提出数据合成框架:KPDDS,微调Mistral-7B性能超34B模型!
发布日期:2024-04-18 08:21:22 浏览次数: 1764



引言

在数学推理领域,大型语言模型(LLMs)的性能受限于高质量训练数据。为此,本文提出关键点驱动的数据合成(KPDDS)框架,它通过分析真实数据中的关键点和示例对来生成问答对。基于此框架作者创建了KPMath数学问题数据集,并通过与额外的推理密集型数据结合,形成了KPMath-Plus数据集。在KPMath-Plus上微调的Mistral-7B模型在MATH测试集上达到了39.3%的零样本PASS@1准确率,不仅超过了7B模型,还超过了34B模型。https://arxiv.org/pdf/2403.02333.pdf

研究背景

在人工智能领域,大型语言模型(LLMs)如GPT-4、Gemini和Mistral等,因其在自然语言处理任务中的卓越表现而受到广泛关注。这些模型通过在大规模文本数据上进行训练,学会了理解和生成自然语言。然而,「尽管LLMs在许多领域表现出色,它们在复杂推理任务,尤其是数学推理方面的能力仍然有限」。数学推理要求模型不仅要理解问题,还要能够执行逻辑推理和数学计算,这超出了LLMs通常的训练范围。

现有的数学推理数据集,如OpenWebMath和MathPile,通常来源于互联网,这些数据在质量和相关性上存在问题。另一方面,手动注释的高质量数据集,如MATH数据集,虽然质量较高,但数量有限,且往往缺乏详细的推理步骤。为了提升LLMs在数学推理方面的表现,研究者们尝试了多种策略,包括对现有数据集进行增强,以及从已有知识概念中生成新问题。这些方法主要依赖于结构化知识,然而这些知识可能与现有数据集的分布不一致,如果没有示例说明就很难理解这些概念。

KPDDS介绍

为了解决以上问题,本文提出了一种新的数据合成框架——关键点驱动的数据合成(KPDDS)框架,旨在解决大型语言模型(LLMs)在数学推理任务中面临的数据质量和数量不足的问题。KPDDS的核心思想是利用关键点(Key Points, KPs)和示例对(exemplar pairs)从真实数据源中合成问答对,以提高数据的质量和可扩展性。如下图所示,KPDDS系统地划分为两个主要阶段:知识构建(Knowledge Construction)和实践生成(Practice Synthesis)。「知识构建」 首先,从数学问题集合中精心挑选出一组种子问题,这些问题代表了数学推理的多样性和复杂性。接着,利用大型语言模型如GPT-4对这些种子问题进行深入分析,识别出与问题相关的数学主题和关键点,这些关键点可能包括数学公式的应用、解题策略、定理证明等。

为了确保数据的质量和一致性,对提取的主题和关键点进行去重处理,并应用聚类算法将相似的问题和解题策略归类,形成紧密相关且逻辑连贯的聚类。最终,基于这些聚类结果,构建关键点数学实践(MPKP)数据集,该数据集不仅包含了问题的数学主题,还涵盖了解题过程中的关键点,为后续的问题生成提供了结构化的知识和概念框架。最后,对MPKP数据集进行优化,确保数据的质量和一致性,为KPDDS框架的后续步骤打下坚实的基础。这一过程对于提升大型语言模型在数学推理任务上的性能至关重要。

「实践生成」 首先,该步骤利用从种子问题中提取的主题和关键点,结合示例问题,作为生成新问题的输入。通过大型语言模型如GPT-4,基于这些输入生成覆盖多个数学领域的问题,确保问题的新颖性和多样性。随后,对生成的问题进行严格的质量评估,通过问题质量评分(PQS)系统筛选出符合标准的高质量问题。

接着,为每个问题生成一系列可能的答案选项,并采用共识投票机制来确定最可靠的答案。最后,将这些问题与答案配对,构建问答对,并进行语言上的改写以增加数据集的多样性,同时确保答案的正确性。这一步骤不仅为训练和微调大型语言模型提供了丰富的资源,而且显著提升了模型在数学推理任务上的表现,

KPMath-Plus数据集

KPMath-Plus数据集在KPMath的基础上整合了其他数据源,如MMIQC和MathInstruct-CoT。如下图所示:KPMath-Plus数据集的生成涉及数据清洗和格式化,以确保数据集的一致性和完整性。最后,对整合后的数据集进行优化,平衡不同主题和关键点的分布,形成最终的KPMath-Plus数据集。这个数据集不仅包含了KPMath的所有内容,还额外包含了其他数据源的信息,为模型提供了更全面的数学推理训练材料,有助于提升模型在解决复杂数学问题方面的能力。

实验结果

通过在KPMath-Plus数据集上微调的Mistral-7B模型,在MATH测试集上实现了显著的性能提升。其中零样本PASS@1准确率达到了39.3%,不仅超过了7B模型,还超过了34B模型。如下图,对模型在MATH测试集的不同子主题(如代数、几何、数论等)上的性能进行了分析。微调后的模型在各个子主题上都实现了系统性的提升,这表明KPMath-Plus数据集在多个数学领域内都具有较好的泛化能力。


53AI,企业落地应用大模型首选服务商

产品:大模型应用平台+智能体定制开发+落地咨询服务

承诺:先做场景POC验证,看到效果再签署服务协议。零风险落地应用大模型,已交付160+中大型企业

联系我们

售前咨询
186 6662 7370
预约演示
185 8882 0121

微信扫码

与创始人交个朋友

回到顶部

 
扫码咨询