我要投稿

CoT-Influx | 少样本思维链学习新方法

发布日期：2024-04-21 08:18:46 浏览次数： 2164 作者：奇点智源

Microsoft AI 提出 CoT-Influx，这是一种新颖的机器学习方法，通过推动少样本思维链（CoT）学习的边界来提高大语言模型（LLM）的数学推理能力。

技术介绍

由于接触和训练的大量信息，大语言模型 (LLM) 已成为人工智能 (AI) 领域颠覆性的技术。然而，仍有一些未开发或开发较少的领域需要改进。其中一个领域就是数学推理能力。这些模型，尤其是像 LLaMA 这样较小的模型，在数学推理方面临着挑战，而数学推理是人工智能认知能力的关键组成部分。研究界正不知疲倦地致力于优化 Chain-of-Thought (CoT) 提示并微调 LLM 以增强其推理能力。然而，few-shot 学习的全部潜力仍有待探索。

最近的研究通过增强 CoT 提示和创新基于 CoT 的训练数据，提高了 LLM 的推理能力。已经探索了提示压缩方法以解决有限的少样本示例的挑战，但它们必须有效地解决问题。提示检索方法通过选择高质量的少量示例来优化任务性能，但它们对于数学推理来说不是最优的，并且没有考虑词元冗余。LLaMA2-7B 推理的准确性随着 CoT 示例数量超过词元限制而降低。具有不同能力的 LLM 更喜欢复杂性不同的 CoT 示例，但当前的检索方法并未考虑这一点。

香港大学和微软的研究团队提出了 CoT-Influx。这种新颖的方法引入了对少样本学习的更有效利用，以提高 LLM 数学推理能力。CoT-Influx 利用粗到精的修剪机制，旨在最大限度地输入有效且简洁的 CoT 示例，并将其限制在现有上下文窗口的范围内。这种方法可以为更多有用的 CoT 示例腾出空间，同时确保每个示例都包含丰富的信息。

CoT-Influx 的开发涉及到创建了一个专门的数学推理数据集 MRD3，其中包含难度级别和推理步骤范围广泛的问题。该数据集是为数学推理任务量身定制的修剪器训练的基础。修剪器分两个关键阶段进行操作——首先从大量池中选择典型的 CoT 示例，然后修剪多余的词元以符合原始上下文窗口的约束。通过采用这种双阶段修剪策略，CoT-Influx 有效地将上下文窗口中有用的 CoT 示例的能力提高了一倍，而不会产生额外的计算开销或复杂性。

CoT-Influx 的有效性通过严格的测试得到证明，显示 LLM 的数学求解能力显着提高。CoT-Influx 应用于五个数学数据集上的各种 LLaMA 模型，显着提高了准确性。一个关键的亮点是 LLaMA2-70B 模型与 CoT-Influx 在 GSM8K 数据集上超过了 GPT-3.5 和更大的模型，达到了显着的 2.5%。此外，在 AddSub 和 Multiarith 等其他数据集上，CoT-Influx 使模型能够达到最高性能，凸显了其在提高 LLM 数学推理能力方面的关键作用。

总之，该研究引入了 CoT-Influx，这是一种显着提高 LLaMA 等 LLM 的数学推理能力的方法。通过有效地修剪和使用与数学相关的示例，CoT-Influx 允许这些模型在具有挑战性的数据集（如 GSM8K、AddSub 和 Multiarith）上实现更高的准确性。这一进步标志着向前迈出了重要一步，并为将 LLM 应用于解决复杂的数学问题开辟了新的可能性，表明了 AI 推理和学习效率的未来研究方向很有前景。