我要投稿

LLM 微调的学习动力学：幻觉、挤压与优化的艺术（万字长文，实战解读）

发布日期：2025-04-26 07:10:42 浏览次数： 1637 作者：觉察流

“ 幻觉与挤压，这两个微调中的暗流，正被学习动力学的光照亮。通过巧妙的数据扩展策略，我们有望平息这些波澜，迎来更平稳的航行。”

大家好，我是肆〇柒。今天，我们来看看大型语言模型（LLM）微调中的奥秘。在我们落地垂域的 AI 应用过程中，LLM 微调技术发挥着极为关键的作用，从智能写作到语言翻译，从智能客服到信息检索，LLM 的身影无处不在。然而，在追求高性能时，微调过程中出现的幻觉现象和优化难题却成为阻碍其发展的绊脚石。微调后的模型有时会凭空杜撰事实、重复简单短语，甚至在偏好优化中出现置信度衰减等反直觉现象。这些难题不仅让开发者头疼，也让用户对模型的可靠性产生怀疑。

有一篇论文对此做了深入研究，这篇论文是这几天发布的 ICLR 2025 杰出论文之一的《LEARNING DYNAMICS OF LLM FINETUNING》。文中阐述的学习动力学为我们提供了一种探索模型行为的方式。通过这篇文章，我们可以深入了解幻觉现象与挤压效应，了解优化微调的新策略。下面一起来看看。

TLDR：
如果你觉得文章太长，或者理论概念难以理解，可直接拖到文章末尾的“总结与感受”部分，那里有更具体的实战理解内容。

但如果你有时间和精力去阅读和思考，我们虽然并不一定要深度研究底层的理论知识，不过还是强烈建议你尝试去理解理论原理。因为这会提升自己的“泛化”能力，在面对更复杂的场景来解决难题时，自己内化的知识才是力量！
—— 肆〇柒

微调学习动力学的理论框架：揭开模型变化的面纱

学习动力学的定义与应用

学习动力学，简单来说，就是研究模型参数更新如何影响其预测变化。在 LLM 微调中，这一理论框架就像一个精密的仪器，帮助我们拆解模型学习的每一步。当我们对模型进行微调时，参数的每一次更新都会对模型的预测产生影响。这种影响可以通过学习动力学进行量化和分析。

在 LLM 微调中，学习动力学的具体形式可以表示为：

其中，At(xo) 表示模型当前预测概率的影响，Kt(xo, xu) 表示输入样本间的相似性测量，Gt(xu, yu) 表示损失函数提供的能量和方向。这三项共同决定了模型预测的变化。

统一框架的提出与分解

论文提出了一种统一框架，将模型预测的变化巧妙地分解为三个关键项：适应方向（At）、神经切线核（Kt）和梯度项（Gt）。这三项分别代表着模型当前预测概率的影响、输入样本间的相似性测量，以及损失函数提供的能量和方向。

适应方向（At）由模型当前的预测概率决定，反映了模型对不同输出的偏好。神经切线核（Kt）衡量了输入样本之间的相似性，决定了一个样本的更新对另一个样本预测的影响程度。梯度项（Gt）则由损失函数决定，提供了模型更新的方向和力度。

不同微调算法在框架下的表现

不同微调算法在这个框架下展现出独特的表现。以监督微调（SFT）为例，模型专注于学习给定的完成序列，其损失函数是基于负对数似然（NLL）。在这个过程中，模型对目标响应的置信度逐步提升，同时对相似响应产生间接的 “向上” 压力。

而直接偏好优化（DPO）则不同，它通过对比偏好响应和非偏好响应，引入了正负两股力量。正向力量拉起偏好响应，负向力量则试图推开非偏好响应。这种对比学习的方式，让模型在偏好对齐上更进一步。

例如，在 SFT 中，模型通过最小化目标响应的负对数似然损失，逐步提升对目标响应的预测置信度。而对于与目标响应相似的其他响应，由于神经切线核（Kt）的作用，它们也会受到一定的正向影响，从而间接提升其置信度。然而，随着训练的深入，模型对目标响应的置信度不断增强，间接压力逐渐减弱，相似响应的置信度也开始下降。

在 DPO 中，模型通过最大化偏好响应与非偏好响应之间的差异，同时对偏好响应施加正向梯度，对非偏好响应施加负向梯度。这种正负梯度的对比，使得模型在学习过程中更加关注偏好响应，同时抑制非偏好响应。然而，这种抑制作用可能会引发 “挤压效应”，导致模型对非偏好响应的置信度急剧下降，甚至影响到其他不太可能的响应。

上图展示了在 MNIST 实验中，每一步的学习动力学和累积影响。通过观察不同样本之间的相互作用，我们可以直观地理解模型在学习过程中的行为变化。例如，在相同的类别中，模型对目标样本的学习会提升其置信度，同时对相似样本产生一定的正向影响。而在不同类别中，模型对目标样本的学习会对其他类别样本的预测产生抑制作用。

上图对比了不同类型算法的更新向量。可以看到，DPO 算法在非偏好响应上施加了较大的负梯度，导致了明显的挤压效应。这种效应使得模型对非偏好响应的置信度急剧下降，而模型最自信的预测则吸收了被挤出的概率质量。这种现象在离策略 DPO 中尤为显著，而在其他算法中则相对温和。

幻觉现象与 “挤压效应”：微调中的暗流与漩涡

幻觉现象的成因与表现

幻觉现象一直是 LLM 微调中的棘手问题。模型有时会在回答问题 B 时，不小心混入问题 A 的短语或事实；或者在生成响应时，陷入重复简单短语的循环。这些看似无厘头的行为，其实背后有着清晰的逻辑。

学习动力学告诉我们，模型在学习特定训练样本时，其参数更新会对其他样本的预测产生连锁反应。当模型在微调中接触到新的知识或指令时，它可能会过度适应这些信息，导致生成的文本出现偏差。例如，在指令微调中，模型可能对训练数据中的某些模式产生过度偏好，从而在面对新问题时，错误地套用这些模式，产生幻觉内容。

这种幻觉现象可以进一步分为两种类型：一种是模型在回答问题时，错误地引用了其他问题中的信息；另一种是模型在生成响应时，反复使用相同的简单短语。这两种幻觉现象都与模型的学习动力学密切相关。

对于第一种幻觉现象，当模型学习问题 A 的回答时，其参数更新不仅提升了对问题 A 响应的置信度，还可能通过神经切线核（Kt）的影响，对问题 B 的响应产生间接的正向压力。这种间接影响可能导致模型在回答问题 B 时，错误地使用了问题 A 中的短语或事实。

对于第二种幻觉现象，模型在微调过程中可能对某些简单短语的预测置信度较高。当模型不断学习这些短语时，其参数更新会进一步强化对这些短语的偏好。这种强化效应可能导致模型在生成响应时，倾向于重复使用这些简单短语，从而形成幻觉现象。

“挤压效应”的机制与影响

在离策略直接偏好优化（DPO）中，存在一个鲜为人知却极具破坏力的现象——“挤压效应”。当模型对非偏好响应施加大的负梯度时，这个效应就会悄悄浮现。负梯度会将模型预测的概率质量从非偏好响应中挤出，并重新分配到其他可能的输出标签上。然而，由于预训练模型通常对不太可能的标记分配的概率质量较少，这种重新分配往往会加剧概率质量向最可能的标签集中。

这种效应在模型预测已经比较平坦时相对温和，但如果模型预测本身就很尖锐，那么挤压效应就会变得格外严重。此时，模型对非偏好响应的置信度会急剧下降，甚至可能影响到原本就不太可能的响应。这就好比在一个拥挤的房间里，人们试图避开一个不受欢迎的区域，结果却不得不更加紧密地挤在一起，反而让整个空间的氛围变得紧张而压抑。

当模型对非偏好响应施加负梯度时，那些在模型预测中本就不太可能的响应，其置信度下降得尤为明显。而模型最自信的预测，往往会吸收这些被挤出的概率质量。这种效应可能导致模型生成的文本变得更加单一和重复，因为它倾向于强化那些已经占据主导地位的语言模式。

上图展示了 DPO 的学习动力学，特别是挤压效应的表现。可以看到，在 DPO 过程中，模型对非偏好响应的置信度急剧下降，而对贪婪解码选择的置信度快速上升。这种现象表明，模型在 DPO 过程中，正试图将概率质量集中到它当前最自信的预测上。这种挤压效应不仅影响了非偏好响应，还对其他不太可能的响应产生了负面影响。

挤压效应的实验验证

为了验证挤压效应的存在，研究人员进行了详细的实验分析。在实验中，模型对非偏好响应施加负梯度时，观察到以下现象：

1. 非偏好响应的置信度急剧下降：模型对非偏好响应的置信度在训练过程中迅速降低，尤其是在模型预测已经比较尖锐的情况下。
2. 模型最自信预测的置信度上升：模型对贪婪解码选择的置信度在训练过程中快速上升，表明概率质量被重新分配到模型最自信的预测上。
3. 其他响应的置信度普遍下降：除了模型最自信的预测外，其他响应的置信度也出现了不同程度的下降，这进一步验证了挤压效应的存在。

例如，在实验中，研究人员观察到，当模型对非偏好响应施加负梯度时，几乎所有观察到的响应的置信度都在下降，而模型对贪婪解码选择的置信度却在快速上升。这种现象表明，模型在 DPO 过程中，正试图将概率质量集中到它当前最自信的预测上。

上图通过一个简单的多分类逻辑回归任务，验证了挤压效应的存在。可以看到，当模型对非偏好响应施加负梯度时，非偏好响应的置信度急剧下降，而模型最自信的预测的置信度则显著上升。这种现象在模型预测较为尖锐时尤为显著，表明挤压效应的强度与模型预测的尖锐程度密切相关。

实验验证：用数据说话，让现象现形

实验设置与数据集

为了验证学习动力学的分析，研究人员设计了一系列实验。实验采用了两个常见的数据集：Antropic-HH 和 UltraFeedback，以及多个模型系列，包括 Pythia-410M/1B/1.4B/2.8B 和 Qwen1.5-0.5B/1.8B。

Antropic-HH 数据集包含了大量的对话样本，每个样本都包含一个提示词和两个可能的响应：一个是偏好的（y+），另一个是不太偏好的（y−）。这些样本通过人类反馈收集，能够有效反映人类的偏好。UltraFeedback 数据集则提供了更丰富的反馈类型，包括详细的评分和注释，帮助研究人员更好地理解模型行为。

在实验中，研究人员将数据集分为训练集和测试集。训练集用于模型的微调，而测试集用于评估模型的性能。通过这种方式，研究人员能够全面评估模型在不同数据集上的表现。

SFT 的学习动力学实验结果

在 SFT 实验中，研究人员观察到，模型对目标响应的置信度持续攀升。这并不意外，因为 SFT 的主要任务就是强化模型对给定完成序列的学习。然而，有意思的是，那些与目标响应相似的响应也获得了间接的 “向上” 压力，其置信度在训练初期有所提升。但随着训练的深入，模型对目标响应的置信度不断增强，间接压力逐渐减弱，相似响应的置信度也开始下降。

例如，研究人员发现，当模型学习一个特定的响应时，那些与之语义相似或格式相近的响应也会受到一定的影响。这表明模型在学习过程中，并非孤立地对待每一个响应，而是会在它们之间建立某种关联。这种关联可能源于模型对语言模式的内在理解，也可能与训练数据中的分布有关。

在实验中，研究人员观察到以下现象：

1. 目标响应的置信度持续上升：模型对目标响应的置信度在整个训练过程中稳步上升，表明 SFT 有效地强化了模型对目标响应的学习。
2. 相似响应的置信度先升后降：在训练初期，与目标响应相似的响应的置信度有所提升，但随着训练的深入，这些响应的置信度逐渐下降。这表明模型在初期对相似响应产生了一定的泛化作用，但随着对目标响应的进一步强化，这种泛化作用逐渐减弱。
3. 不相关响应的置信度下降：那些与目标响应不相关的响应的置信度在整个训练过程中持续下降，表明模型在学习目标响应时，对其它不相关响应的预测进行了抑制。

上图展示了 SFT 在不同响应类型上的学习动力学。可以看到，模型对目标响应的置信度持续上升，而对非目标响应的置信度则呈现下降趋势。特别是那些与目标响应相似的响应，在训练初期置信度有所提升，但最终还是下降。这表明模型在学习过程中，对目标响应的强化作用逐渐超过了对相似响应的泛化作用。

DPO 的学习动力学实验结果

在 DPO 实验中，挤压效应的影子无处不在。研究人员发现，几乎所有观察到的响应的置信度都在下降，而模型对贪婪解码选择的置信度却在快速上升。这种现象表明，模型在 DPO 过程中，正试图将概率质量集中到它当前最自信的预测上。

在实验中，研究人员观察到以下现象：

1. 非偏好响应的置信度急剧下降：模型对非偏好响应的置信度在训练过程中迅速降低，尤其是在模型预测已经比较尖锐的情况下。
2. 模型最自信预测的置信度上升：模型对贪婪解码选择的置信度在训练过程中快速上升，表明概率质量被重新分配到模型最自信的预测上。
3. 其他响应的置信度普遍下降：除了模型最自信的预测外，其他响应的置信度也出现了不同程度的下降，这进一步验证了挤压效应的存在。

例如，研究人员在实验中发现，当模型对非偏好响应施加负梯度时，那些在模型预测中本就不太可能的响应，其置信度下降得尤为明显。而模型最自信的预测，往往会吸收这些被挤出的概率质量。这种效应可能导致模型生成的文本变得更加单一和重复，因为它倾向于强化那些已经占据主导地位的语言模式。

不同响应类型的行为变化

研究人员进一步分析了不同响应类型在微调过程中的行为变化。实验中考虑了多种响应类型，包括重新表述、无关响应、随机生成句子等。通过观察这些响应类型在 SFT 和 DPO 过程中的置信度变化，研究人员能够更全面地理解模型的行为。

例如，在 SFT 中，研究人员发现，重新表述的目标响应的置信度在训练初期有所提升，但随着训练的深入，其置信度逐渐下降。这表明模型在学习目标响应时，对重新表述的响应产生了一定的泛化作用，但随着对目标响应的进一步强化，这种泛化作用逐渐减弱。

在 DPO 中，研究人员观察到，重新表述的非偏好响应的置信度下降速度比非偏好响应本身更快。这表明模型在 DPO 过程中，对非偏好响应及其重新表述形式都施加了较强的抑制作用。

此外，研究人员还发现，无关响应和随机生成句子的置信度在整个微调过程中持续下降。这表明模型在学习过程中，能够有效地抑制与任务无关的响应，从而提高其对目标响应的专注度。

为了方便手机阅读的读者查阅，我将它倒置方便横屏阅读。上图展示了不同组响应在提出的探测数据集中的学习动力学。可以看到，目标响应的置信度持续上升，而非目标响应的置信度则呈现下降趋势。特别是那些与目标响应相似的响应，在训练初期置信度有所提升，但最终还是下降。这表明模型在学习过程中，对目标响应的强化作用逐渐超过了对相似响应的泛化作用。

改进方法与实践建议：优化微调，提升对齐性能

基于学习动力学的改进方法

基于学习动力学的深入分析，研究人员提出了一种简单而有效的改进方法：扩展 SFT 阶段的训练数据。就是将非偏好响应（y−）也纳入 SFT 的训练数据中。这样做的目的是在 DPO 之前，先提升这些非偏好响应在模型预测中的地位，从而减轻挤压效应的负面影响。

实验验证与结果分析

实验结果有力地支持了这一方法的有效性。通过扩展训练数据，模型在 DPO 阶段的挤压效应明显减弱。与基线方法相比，改进后的模型在对齐性能上取得了显著提升。

例如，在 Antropic-HH 数据集上，经过 4 轮 DPO 训练后，改进方法的模型在与基线模型的对比中，胜率分别达到了 0.6928 和 0.6045（见表 1）。

下表改进方法与基线方法在不同 DPO 轮数下的胜率对比

DPO 轮数	改进方法胜率（ChatGPT）	改进方法胜率（Claude）
0	0.4729	0.4679
2	0.6518	0.5151
4	0.6928	0.6045
6	0.6667	0.5432

如上图对比了基线方法与扩展方法的学习动力学。可以看到，扩展方法在 SFT 阶段对非偏好响应的置信度提升明显，而在 DPO 阶段，挤压效应显著减弱。这表明通过扩展训练数据，我们能够在一定程度上缓解 DPO 过程中的负面效应，提升模型的整体性能。

实践建议与未来方向

这一改进方法不仅验证了学习动力学分析的正确性，还为实际的微调实践提供了宝贵的指导。通过合理调整训练数据，我们可以在一定程度上缓解微调过程中出现的负面效应，提升模型的整体性能。

在未来的实践中，研究人员建议：

1. 在 SFT 阶段，适当纳入非偏好响应，以提升模型对这些响应的预测能力。
2. 在 DPO 阶段，密切关注模型的置信度变化，及时调整训练策略，以避免挤压效应的过度影响。
3. 结合其他优化方法，如调整学习率、优化损失函数等，进一步提升模型的对齐性能。

通过这些实践建议，我们有望在微调过程中取得更好的效果，为 LLM 的应用落地提供更坚实的基础。

总结与感受

在阅读了关于LLM微调学习动力学的论文后，我深刻感受到学习动力学这一理论工具在剖析大型语言模型微调过程中的关键作用。

文章通过对幻觉现象的深入剖析，让我们认识到模型在微调时所面临的挑战并非简单的技术瑕疵，而是学习过程中参数更新引发的连锁反应。这种现象提醒我们，模型在学习新知识时，可能会因过度适应训练数据中的特定模式而导致生成内容出现偏差。这不仅是技术上的难题，更是对模型泛化能力的一次考验。而挤压效应的揭示，则进一步凸显了不同微调算法在优化过程中的独特表现及其潜在风险。尤其在离策略直接偏好优化中，负梯度对非偏好响应的抑制作用，可能导致模型预测结果的单一化，这无疑限制了模型的创造力和多样性（过拟嫌疑）。

在实验验证部分，研究者们通过精心设计的实验，清晰地展示了SFT和DPO两种微调方法在不同数据集上的表现。这些实验结果为我们提供了宝贵的实证依据，让我们看到理论分析与实际应用之间的紧密联系。同时，这也验证了基于学习动力学提出的改进方法的有效性，即通过扩展SFT阶段的训练数据，可以在一定程度上缓解DPO中的挤压效应，提升模型的对齐性能。

所以，学习动力学的研究，不仅让我们看清了幻觉现象和挤压效应背后的逻辑，还为优化微调算法提供了新的思路。通过合理的训练数据扩展和策略调整，我们有望在复杂的微调过程中取得更好的效果，为LLM的应用和发展提供更坚实的基础。

回顾过往的微调经历，现在想想有些失败案例还是数据工程上做的工作不够多。由此可见，AI 应用，数据是核心的核心，这无论在微调、量化校准、RAG 数据预处理、图片理解数据预处理、甚至问答系统的语义预处理等等，都至关重要，有一个足够优质的数据上游，可以减轻模型的负担，提升模型性能。

下面依据论文提到的三方面的指导，结合过去的微调实践，我谈一点实践上具体的理解：

• 扩展训练数据：

• 问题回答训练：假设我们正在微调一个用于回答问题的 LLM。在 SFT 阶段，除了提供正确的答案（y+）外，还加入一些相对不太理想但有一定合理性的答案（y−）。
比如，问题“北京的坐标是什么？”的正确答案是“北京的坐标是北纬39.9087°，东经116.3975°”。我们可以将这个正确答案作为 y+，然后人为构造一个不太精确但有一定合理性的答案，如“北京大致位于北纬39°26’至41°03’，东经115°25’至117°30’之间”作为 y−。将这些 y− 和 y+ 一起用于 SFT 训练。这样，在后续的 DPO 阶段，模型对 y− 的预测置信度相对较高，施加负梯度时，挤压效应会减弱，从而降低模型在面对非理想答案时出现过度抑制的情况，使模型在回答问题时能够更加全面地考虑各种可能性，提高答案的准确性和多样性。
• 文本生成训练：以训练一个用于生成故事的 LLM 为例。在 SFT 阶段，除了给定高质量、符合逻辑且富有创意的故事作为 y+ 外，还加入一些存在轻微逻辑问题或创意不足的故事作为 y−。比如，y+ 是一个情节紧凑、角色鲜明、富有创意的奇幻故事；y− 则是一个情节有些拖沓、角色刻画不够深入的同类型故事。通过同时学习 y+ 和 y−，模型在 DPO 阶段能够更好地平衡对不同类型故事的预测置信度，避免因过度抑制不符合理想标准的故事而导致生成内容单一或缺乏新意，使生成的故事在符合基本要求的同时，更具多样性和创新性。

• 调整损失函数：

• 降低负梯度强度：在 DPO 的损失函数中，适当减小 β 参数的值。比如，在原始的 DPO 损失函数中，β 参数控制着对非偏好响应施加负梯度的强度。通过降低 β 的值，如从 0.5 降至 0.3，可以减轻对非偏好响应的抑制力度。这有助于缓解挤压效应，使模型在优化过程中不会过度挤压非偏好响应的置信度，从而避免模型对这些响应的概率质量过度分配到少数最可能的标签上，保持模型对不同响应类型的开放性和灵活性，使其能够更好地适应各种复杂的文本生成任务。
• 增加正则化项：在损失函数中添加一个额外的正则化项，以限制模型对特定响应的过度自信。比如，添加一个基于KL散度的正则化项，衡量模型当前预测分布与参考分布（如均匀分布或其他平滑分布）之间的差异。在训练过程中，通过控制正则化项的权重，如设置权重为 0.1，鼓励模型的预测分布更加平滑，避免过度集中在少数几个响应上。这有助于缓解挤压效应，使模型在保持对偏好响应的合理偏好同时，对其他响应也能给予适当的关注，提高模型的稳定性和泛化能力。

• 优化学习率：

• 分阶段调整学习率：在微调的不同阶段采用不同的学习率策略。比如，在 SFT 阶段，使用相对较高的学习率（假设 5e-5）以便模型能够快速学习到数据中的主要模式和特征；而在 DPO 阶段，降低学习率（如 1e-5）以进行更精细的优化。这有助于在早期阶段快速提升模型的整体性能，并在后期阶段避免因学习率过大而导致的模型对非偏好响应的过度抑制和挤压效应的过度放大，使模型能够更精确地调整对不同响应的置信度，提高模型的对齐性能。
• 根据数据类型调整学习率：对不同类型的训练数据，设置不同的学习率。比如，对于高质量、可靠的偏好响应数据，使用正常的学习率（假设 3e-5）以充分利用其有效信息；而对于可能存在噪声或不确定性较大的非偏好响应数据，适当降低学习率（如 1e-5）。这样可以减少模型在学习非偏好响应数据时的步长，避免因学习率过大而导致模型对其过度拟合或过度抑制，使模型在处理不同类型的数据时能够更加稳健地调整自身的预测置信度，提高模型对数据的适应性和鲁棒性。

也许有小伙伴，对训练时的超参还不是很熟悉，那这个并不是本文能解决的问题。那么在这里，我可以再举3个更具体的数据构建方面的例子，这个通常是我们都能尽量做到的。

1. 文本分类

• 与任务相关的数据：假设你正在训练一个情感分析模型来区分积极和消极的电影评论。你有大量标注了情感倾向的评论数据，这就是与任务直接相关的数据。
• 与任务不相关的数据：你可以加入一些与情感分析不直接相关的文本，比如新闻报道或者技术文档。这些文本提供了模型在更广泛的语言环境中进行训练的机会，从而帮助模型更好地理解不同语境下的语言模式，增强模型的泛化能力。

2. 图像识别

• 与任务相关的数据：如果你正在训练一个模型来识别猫和狗的图片，那么大量的猫和狗的图片数据是与任务相关的。
• 与任务不相关的数据：你可以加入一些其他动物的图片，比如大象、长颈鹿等，甚至可以加入一些非动物的图片，如风景、建筑等。通过这种扩展，模型可以学习到更广泛的视觉特征，并减少对特定类别（猫和狗）的过度拟合，提高识别的鲁棒性。

3. 机器翻译（或问答）

• 与任务相关的数据：训练模型将一种语言翻译成另一种语言时，主要使用的是双语或多语种的平行语料库，例如英文到中文的翻译数据。
• 与任务不相关的数据：你可以加入一些单语语料数据，也就是只有一种语言的文本数据。这些数据可以帮助模型更好地理解目标语言的结构和语义，尽管它们不直接提供翻译任务的平行信息，但能提升模型对语言整体的掌握能力。

所以在数据构建的时候，我们除了擦洗等处理，还需要做一定程度的数据增强。包含与任务不直接相关的数据在微调模型时，可以帮助模型学习到更全面的特征表示，增强泛化能力和鲁棒性，从而在实际应用中更少出现幻觉或过度拟合这些问题。这种策略在文章中也有体现，特别是在讨论如何缓解挤压效应时，强调了扩展训练数据的重要性。

训练相关的文章，发过一些，在这里我还推荐阅读读另外两篇，帮助我们认知模型训练。一篇是 RL 与 SFT 泛化区别的：《DeepSeek训练用过的强化学习 (RL) 与监督微调 (SFT)：谁更能提升模型泛化能力？" data-itemshowtype="0" target="_blank" linktype="text" data-linktype="2">强化学习 (RL) 与监督微调 (SFT)：谁更能提升模型泛化能力？》；还有一篇是讲了最常见的 LoRA 微调：《LoRA 微调：如何在不损害 LLM 的情况下添加新知识》

53AI，企业落地大模型首选服务商

产品：场景落地咨询+大模型应用平台+行业解决方案

承诺：免费场景POC验证，效果验证后签署服务协议。零风险落地应用大模型，已交付160+中大型企业