我要投稿

微调真的导致了模型幻象吗？

发布日期：2024-05-26 07:26:21 浏览次数： 2274 作者：SparksofAGI

Does Fine-Tuning LLMs on New Knowledge Encourage Hallucinations?

微调真的导致了模型幻象吗？‍‍‍‍‍‍‍‍‍

‍‍‍‍‍

上一条发送忘了改标题了=。=

对于模型幻象这一令人头大的问题，其实社区很多人都认为是SFT阶段试图注入太多模型没有在预训练阶段学到的知识，从而使其尝试虚假错误地回复，这种揠苗助长逼迫模型容易hallucinate，这篇论文便对此进行了讨论。作者设计了一个专注于闭卷QA的实验，在其中变换能引入新知识的微调数据的比例。作者展示了LLM通过微调获取新的事实知识很困难，因为学习会引入新知识的微调数据比学那些与模型知识一致的数据明显更慢。而且他们也发现，模型产生幻觉的倾向随着带有新知识的样例最终被学习到的过程进行而线性增加。总之，该研究强调了通过微调引入新的事实知识的风险，并且认为LLM主要通过预训练获取事实知识，而微调则教会模型更有效地使用这些知识。

为了研究新知识的影响，他们采用ENTITYQUESTIONS数据集。首先要能评估某条微调数据是否与模型知识一致，因此他们提出了SliCK(Sampling-based Categorization of Knowledge)，一个包含四种类别的知识分类体系（见figure2），首先知识被分为Known和Unknown，而Known又继续被划分为HighlyKnown, MaybeKnown和WeaklyKnown，他们划分的时候用了一个新定义的连续指标P_Correct来量化模型中的知识，这个指标是模型在被few-shot式地prompt问题后精确产生正确答案的可能性，作者按照不同解码方式下模型对答案的不同预测能力划分了这四个类别。

然后作者就做了控制实验，他们固定住微调数据集大小然后变换其中Unknown数据的比例去训练，见figure3，对于微调有不同的epoch数，5-10个epoch的是早停（EARLY_STOP），50个epoch的是CONVERGENCE（模型完全拟合了数据，训练准确性100%）。然后他们用闭卷QA问题做了测试，有以下结论：

更高的Unknown比例与性能退化成正比：见figure3a，无论微调多久，更高的Unknown百分比会导致性能退化，这表明Unknown不如Known示例有用。性能也受微调时间的强烈影响，通常早停法性能最好。训练更多的epoch通常会降低性能。
Unknown数据是有害的还是中性的？考虑到数据量固定，上述情况下效果随着Unknown变多而变差可能单纯是Known数据变少了，作者因此将Unknow数据过滤掉，比如筛掉25%的Unknown数据留下一个0.75被数据量的纯Known数据集。结果见figure3b，实线是figure3a里取过来的，虚线是去掉Unknown后的结果，可以对比两个颜色，在早停情况下，效果几乎不变，意味着此时Unknown数据效果较为中性，而当训久了CONVERGENCE时差别很大。而且对于两条纯Known的虚线，其实效果很接近，这表明Unknown的存在是使得具有较高未知比例的ckpt更容易过拟合的原因。
Unknown拟合速度比Known慢：早停可以减轻过拟合Unknown示例带来的幻觉风险。作者在figure1中展示了随着训练，模型在Train中Known/Unknown以及Dev上的表现，可以看到Known的准确性提升得比Unknown快，而且效果最好的时候是拟合了大部分Known以及小部分Unknown的时候。
随着在早停时达到峰值，M拟合更多Unknown会性能恶化，作者甚至拟合了Known和Unknown示例对测试准确率的影响，其线性回归模型见下，具体参数见论文。
作者对微调数据集以外的知识做了评估，在OOD测试集上有类似上述结论的发现：较高的Unknown比例导致较低的OOD测试性能；Unknown对OOD性能有害且也主要在拟合它们时。因此上述结论有迁移性。

作者进一步评估了三种已知知识类别的微调示例对性能的影响。出乎意料的是，他们发现仅在最高知识度（HighlyKnown类）的示例上进行微调的模型并未产生最佳结果。分析显示，纳入MaybeKnown这种有较低事实确信度的数据发挥了重要作用。另外还有一个分析表明，WeaklyKnown的数据也会增加过拟合的风险，这表明微调示例的组成显著影响了LLM如何有效利用其预先存在的知识的程度。