我要投稿

微软 | 利用监督式微调（SFT），向大模型注入新知识，无需检索增强生成(RAG)！

发布日期：2024-05-01 06:42:07 浏览次数： 3299

作者：AINLPer

微信搜一搜，关注“AINLPer”

引言

在文本生成方面，大语言模型表现出了超强的性能。然而，随着时间的推移，大模型会面临知识更新问题，特别是对于发生在模型知识截止日期之后的事件。例如：当前ChatGPT并不能给出2023年亚运会的信息。面对这个问题，目前主要有两种解决方案，方案一通过RAG外挂知识数据库；方案二是通过模型微调，为大模型注入新的知识。

本文作者深入调研了监督微调（SFT）在大模型知识注入上的有效性，提出了一种新型数据生成方法：Fact-based生成方法，通过监督式微调（SFT）实现了大模型新知识的有效注入。https://arxiv.org/pdf/2404.00213.pdf

背景介绍

近两年随着大模型的发展，越来越多的应用场景逐步开始探索大语言模型（LLM）的适用性。LLM应用开发者通常面临的一个问题：如何有效的将大模型适用于下游任务。面对这个问题，通常会涉及以下几种技术，包括少量样本学习（few-shot learning）、提示工程（prompt engineering）、检索增强生成（Retrieval Augmented Generation, RAG）、监督式微调（Supervised Fine-Tuning, SFT）、RLHF以及这些技术的某种组合。

虽然说LLMs具备超强的文本生成能力，但LLMs主要由历史数据训练得出，它权重参数所表示的数据并不会更新，无论在时间上还是在覆盖的知识广度上都是有限的。这一限制对需要最新信息或超出模型训练截止日期的领域特定知识的应用程序会构成了重大障碍。此外，人类知识的动态和不断发展的环境进对LLMs提出了更高的要求，因为新事件会不断产生的，特定领域的知识也会不断产生。

因此，对于LLM开发人员来说，将新知识注入到LLMs中并使其能够适配特定领域应用场景是非常有必要的。可能会有人说，RAG的方式也可以让大模型具备外部知识的能力，但是该方法规避了将新知识直接整合到模型本身的核心问题。

基于以上背景，本文作者旨在寻求新的方法，让LLMs能够通过直接的训练来让模型保留住新的信息。其探索核心在于：如何从一系列文档中构建一个训练数据集，通过简单的SFT技术促进新知识的学习？解决这个问题不仅具有理论上的意义，而且对LLMs特定场景应用也有重大的意义。

数据生成

本文作者选择了6篇有关体育赛事的维基百科文章，其主要原因是该类数据事实、统计数据丰富、易于理解。对于每个文档，利用文本提取API获取纯文本数据集，删除空白部分和没有意义的文本。在数据集生成部分，作者采用两种生成策略：基于标记（token-based）和基于事实（fact-based）。

「基于标记的数据集生成策略」 首先创建了一个由手动编写的问答对组成的初始问题库。随后，通过计算文档各部分的标记数量，并使用GPT-4生成足够的问答对，直到生成的标记数量超过源部分的十倍。这种方法生成了1倍、5倍和10倍规模的数据集，以及相应的评估集。然而，「这种方法可能无法确保新知识在文档中的均匀覆盖」。

「基于事实的数据集生成策略」 针对以上策略的问题，该策略首先通过查询GPT-4从文档中提取出原子事实列表。然后，为每个事实生成10个独特的问答对，确保这些问答对不重复，并在问题库中是唯一的。这种方法允许模型更均匀地关注每个事实，从而提高了知识吸收的效率。基于事实的数据集同样生成了1倍、5倍和10倍规模的数据集，以及相应的评估集。

另外，在生成数据集时，作者也注重多样性和覆盖率，以避免过拟合，并通过GPT-4对生成的问题和答案进行二元评估来确定其正确性。

模型训练

作者采用LoRA来对GPT-4模型进行微调，以便更好地吸收和回答关于体育赛事的最新信息知识。选择的GPT-4版本（v0613）具有2021年9月的知识截止日期，微调的目标是提升模型在特定知识领域的准确性和事实性。

为了实现这一目标，作者设置Rank为16、批量大小为1，并进行了3个epoch的训练。上下文长度被设定为足够容纳所有训练示例，以确保模型能够完全处理输入的数据。在微调过程中，梯度更新仅在辅助标记上执行，而不是在用户提示标记上，这样做是为了集中更新在新学习的知识上。

实验结果

下图显示了基于标记的数据集中原子事实的覆盖率。可以发现，即使在10x规模的数据集中，仍有约20%的事实未被覆盖，这揭示了基于标记的数据集生成方法可能无法均匀覆盖所有新知识。下图展示了基于事实的数据集在不同规模（1x, 5x, 10x）下，经过SFT后的GPT-4模型在基于事实的评估集上的准确率。与基于标记的数据集相比，该方法能够更系统地覆盖所有事实，从而提高模型对新知识的学习效果。通过以上对比可以发现，通过基于事实的数据集进行SFT，模型在问答任务中的表现有显著提升。这验证了SFT方法在提高模型处理超出领域、超出知识截止日期的知识方面的有效性。尽管SFT模型在所有情况下都没有超过RAG模型的性能，但在缩小与RAG性能差距方面取得了进展，尤其是在10x数据集规模下。