AI知识库

53AI知识库

学习大模型的前沿技术与行业应用场景


新知识比例对模型准确性的影响
发布日期:2024-05-12 21:36:11 浏览次数: 2082 来源:大语言模型论文跟踪


发布时间:2024 年 05 月 09 日

动手训练

Does Fine-Tuning LLMs on New Knowledge Encourage Hallucinations?

大型语言模型在监督式微调过程中可能会接触到预训练之外的新事实,这可能导致模型产生事实错误的幻觉。我们通过闭卷问答的受控实验,探究了微调中引入新知识对模型利用先前知识能力的影响。实验表明,大型语言模型在微调中学习新事实的速度较慢,但一旦学会,却会线性增加产生幻觉的倾向。我们的研究强调了微调中新知识引入的风险,并指出大型语言模型主要通过预训练获取事实知识,而微调则使其更高效地运用这些知识。

https://arxiv.org/abs/2405.05904

背景

对大语言模型进行Fine Tuning可以将新知识加入到大语言模型参数中,但是这种方式是否合理?是否带来一些新的问题?

今天这篇论文就是验证了当模型Fine tuning时,加入了太多未知知识,也就是预训练知识库中不存在的知识时,模型会产生新的幻觉。而且这种幻觉会随着新知识的比例增加而提高。今天这篇论文是作者在谷歌实习的时候完成的研究。

为了验证Finetune时的新知识比例对产生幻觉的影响,作者设计了一整套验证流程。引入了SliCK数据分类体系,根据模型本身的知识库,将问题分为四类,然后进行对照实验,验证“未知”数据与模型幻觉产生的相关性。以及发现早停(early-stopping)策略有助于减少因过拟合导致的幻觉风险。

实验设计

假设用来训练的模型为M,微调数据集为D,在数据集D上微调M则得到了一个新模型MD。

为了验证D中未知知识(新知识,即原有模型M中没有的知识)比例对模型性能的影响,在后续的测试中,设计了多种未知数据在D中的占比。同时,从M中抽样了一些问题,用于后续的性能测试。

并定义了一个PCorrect的分类标注,即将问题分为四类:高度已知、可能已知、弱已知和未知(如下图)。

  • • 未知:如果在T大于等于0的时候,模型M都不能生成正确答案的话,那么问题q则是模型M未知的知识。

  • • 高度已知:在温度T=0的时候,模型M生成的答案a总是是正确的话,问题q则是模型M高度已知的知识。

  • • 可能已知:在温度T=0的时候,模型M生成的答案a有时候是正确的话,问题q则是模型M可能已知的知识。

  • • 若已知:在温度T大于等于0的时候,模型m生成的答案有时候是正确的话,问题q则是模型M弱已知的知识。

新知识比例对模型准确性的影响

新知识比例越高,性能下降越严重

上图展示,在不同的微调epochs下,训练数据集D中样本比例对模型性能的影响。未知样本(新知识)比例的增加会导致模型性能的下降,无论模型微调持续多少个epochs。这表明,未知样本相对已知样本对于模型准确性的贡献较小。而且模型训练的epochs越长,对模型性能影响更明显。所以,早挺策略(early-stopping)可以带来最好的性能,延长训练周期往往会降低模型性能。这可能是由于模型对数据集D的过拟合。而且,这种影响会随着新知识的比例增加而进一步增加,表明:Finetune时,新知识比例越高,模型过拟合的风险更高

新知识:弊大于利还是无关痛痒?

鉴于数据集 D 的规模是固定的,较高百分比的未知样本可能导致性能下降,这可能仅仅是因为用于微调的已知样本数量减少。因此,目前尚未明确未知样本对模型性能是有害还是中性。为了澄清这一点,我们评估了从 D 中移除所有未知样本后的影响。

对于数据集D,移除对应的新知识,产生一个新的数据集Dknown。比如数据集D中,有25%的未知知识,移除新知识后,新数据集Dknown的大小则变成0.75xD。

如上图所示,对于早期停止(EARLY_STOP)的训练策略,D 和 Dknown 的结果几乎一致,这表明新知识对性能的影响是中性的(因为移除它们对性能影响很小)。相反地,当训练达到收敛(CONVERGENCE)时,结果表明未知样本实际上对性能有显著的负面影响。在这种情况下, D 的性能明显低于 Dknown,并且两者之间的差距与未知样本的比例成正比。值得注意的是,对于Dknown,早期停止和收敛之间的性能差距非常小(虚线表示),而对于D,这一差距则非常明显(实线表示)。这表明未知样本的存在使得那些未知样本比例较高的变种更易于发生过拟合现象。

简而言之:

  • • 在早停策略下,新知识对性能影响有限

  • • 当模型达到收敛状态时,新知识对性能影响非常明显。

新知识的适配速度落后于已知样本

未知样本对模型性能有负面影响,但这种影响主要在训练的后期阶段显现,并通过采用早停策略(early stopping)可以有效避免。为了深入理解这一现象,我们通过分析 M 在不同微调阶段对 D 中的微调样本的适配情况来探究训练过程的动态变化。上图展示了 D 中已知样本和未知样本的训练准确率随微调时间变化的函数关系。由于开发集准确率的变化范围较小,在下方的放大视图中展示了这一数据。

M 对未知样本的适配速度显著慢于已知样本。在早期停止点(EARLY_STOP,以垂直虚线标示),M 在开发集上达到了最佳性能,此时它已经适配了大部分已知样本,但对未知样本的适配却只完成了一小部分。上图显示了 D 的所有变体中这一行为的一致性。这解释了为什么在早期停止阶段,未知样本对性能的影响是中性的,因为在那时 M 尚未适配大多数未知样本。

鉴于未知样本最有可能引入新的事实知识,它们较慢的适配速度暗示了大型语言模型Agent应用在通过微调学习新事实知识方面存在挑战,它们更倾向于利用已知样本来展现其已有的知识储备。

探索知识类别的价值与作用

在研究未知微调样本对主要研究问题的影响时,为了简便,将已知类别作为一个整体。

接下来的分析中,分别考察每个类别的影响,并提出以下问题:

  • • Q1: 各类别中的训练样本如何影响测试表现?

  • • Q2: 模型在各类别测试样本上的表现如何?

为了回答Q1,为微调数据集D创建了单类别变体。仅包含特定类别CAT样本的D的变体记为Dcat。作为对照,引入了一个保持自然类别分布的ENTITY QUESTIONS变体,记为Dnatural。

针对Q2,进一步按类别分析了测试集的性能,结果见上表。

“可能已知”的样本至关重要。

由于“未知”样本可能带来负面影响,人们可能会认为使用最具代表性的“高度已知”样本进行微调最为理想。

然而,出乎意料的是,高度已知并未取得最佳的整体效果,尽管它在“高度已知”测试样本上表现优异,但在其他类别上的表现却不尽如人意。相比之下,可能已知展现出了最佳的综合表现。与高度已知相比,在“可能已知”类别上显著提升了模型性能(从60.1%提升至69.9%),同时并未降低“高度已知”类别的表现(从98.7%略降至98.4%)。这表明,在微调过程中,“可能已知”的样本对于模型在推理时正确处理这些样本至关重要。同时,这也表明,有了合适的微调样本,模型能够更加充分地利用其现有的知识储备。

知识局限促进了过拟合现象

在前面已经证实了未知的微调样本会提升模型过拟合的风险。对于“弱已知”类别的样本,同样存在这一问题,尽管影响较小。

具体而言,在模型收敛时,相比于采取早期停止策略,弱已知数据和未知数据的性能显著下降(从39.2%降至35.4%,以及从37.5%降至25.8%)。随着训练时间的延长,这些变体在“弱已知”和“未知”类别上有所提升,但在“高度已知”和“可能已知”类别上却大幅降低。

这进一步凸显出性能的下降主要归因于对模型预训练后已掌握事实的错误推断率的增加。值得注意的是,DNatural在早期停止时的表现与DMaybeKnown不相上下,这表明数据集中只要包含“可能已知”的样本,即便存在其他类别的额外样本,也足以在“可能已知”类别上达到高性能。

然而,DNatural在模型收敛后的性能显著下降,落后于DMaybeKnown,这表明它仍然容易受到过拟合的影响,这很可能是由于“弱已知”和“未知”样本的存在。综上所述,这些结果表明DMaybeKnown不仅在性能上表现卓越,同时在降低过拟合风险方面也显得尤为突出。

结论

未知样本的拟合速度慢于已知样本,因此它们的负面效应表现为一种过拟合的形式,这强调了采用早停策略而非固定数量的微调步骤的重要性。然而,当在具有不同最优停止点的多个任务上进行微调时,早停策略可能效果不佳。一种可能的解决方案是通过排除未知样本来调整微调数据,以匹配模型的知识库。

表明这种方法可以在不牺牲性能的情况下降低过拟合的风险。过滤未知样本的一个潜在缺点是,这些样本仍然有助于教会LLM在未知测试样本上表达不确定性。这引发了一个问题:如果我们用不确定性表达(例如,“我不知道”)重新标记未知微调样本,它们是否仍然有害?初步实验表明,答案是否定的,这表明这种方法可能是最具前景的。探索这一点是未来研究的一个有趣方向。

表面对齐假设:即LLM的知识和能力主要是在预训练阶段获得的,而对齐过程仅仅是一个简单的学习如何与用户互动的风格或格式的过程。他们通过展示只需对1000个高质量样本进行微调,就能得到一个与名为LIMA的先进助手LLM相竞争的结果来支持这一假设。

LLM在吸收未知样本中的新知识方面存在挑战,并且主要学习如何利用它们已有的知识。尽管LLM的大部分知识确实是通过预训练获得的,但模型通过微调学到的不仅仅是风格或格式,因为微调样本的选择显著影响了模型在微调后利用其已有知识的能力。



53AI,企业落地应用大模型首选服务商

产品:大模型应用平台+智能体定制开发+落地咨询服务

承诺:先做场景POC验证,看到效果再签署服务协议。零风险落地应用大模型,已交付160+中大型企业

联系我们

售前咨询
186 6662 7370
预约演示
185 8882 0121

微信扫码

与创始人交个朋友

回到顶部

 
扫码咨询