我要投稿

一文看懂预训练、微调和上下文学习

发布日期：2025-04-02 17:53:21 浏览次数： 1863 作者：科技词话

随着深度学习的发展，大模型已经成为了人工智能领域的重要支柱。在大模型的训练和应用过程中，预训练（Pre-training，简称PT）、微调（Fine-tuning，简称FT）和上下文学习（In-Context Learning，简称ICL）是三种关键技术。本文将介绍这三种技术的概念、差异点以及在大模型中的应用。

先看一张介绍三者关系的图，广义上的训练包括预训练、微调和上下文学习，狭义上的训练专指预训练这个阶段。我们耳熟能详的大模型公司智谱AI、百川智能，他们提供的模型如GLM-130B、Baichuan-2-192K等，都是预训练好的模型，我们平常说的炼丹，一般也是指预训练。

预训练、微调和上下文学习在目标、方法和应用场景上存在一定差异。

预训练旨在学习到通用的特征表示，提高模型的泛化能力；

微调则是针对特定任务进行参数调整，提高任务适应性；

上下文学习则关注数据之间的上下文关系，提升模型对数据内在结构和关联的理解。

预训练：打造通用特征提取器

预训练（Pre-training，PT）是指在大量数据上进行模型训练，使模型学习到通用的特征表示。这种训练方式可以让模型在特定任务上具备更好的泛化能力。预训练通常采用无监督学习方法，如自编码器、生成对抗网络等。在大模型中，预训练可以显著提高模型的性能，减少训练时间和计算资源。在预训练期间，模型会接触到大量未标记的文本数据，例如书籍、文章和网站。在大量未标记文本数据上训练语言模型。比如说在包含数百万本书、文章和网站的数据集上预训练像 GPT-3 这样的语言模型。预训练目标是捕获文本语料库中存在的底层模式、结构和语义知识。

所谓无监督学习（Unsupervised Learning，简称UL）是机器学习的一种学习方法。在无监督学习中，模型没有给定的标签或目标输出，而是从输入数据中自行学习数据的内在结构和特征表示。这种学习方式旨在发现数据中的模式、关联或聚类，而不需要人工标注的数据。无监督学习在预处理、特征提取、降维和聚类等任务中广泛应用，常见的无监督学习算法包括自编码器、生成对抗网络、K-均值聚类等。

微调：任务专属优化利器

微调（Fine-tuning，FT）是在预训练模型的基础上，针对特定任务进行进一步的训练。通过微调，模型可以在特定任务上实现更好的性能。微调通常采用有监督学习方法，利用标签数据对模型参数进行调整。在大模型中，微调可以充分利用预训练模型的通用特征表示，实现更高效的任务适应性。

所谓有监督学习（Supervised Learning）是在机器学习领域中使用的一种方法，其中模型通过使用已知标签的训练数据来进行学习。在监督学习中，我们有一个输入数据集和一个相应的标签或目标输出数据集。模型通过学习输入与输出之间的关系，尝试预测新数据的标签。这种方法称为“有监督”，因为模型在学习过程中受到训练数据中标签的监督。它依赖于标记好的训练数据，这些数据通常是经过人工分类或标注的。

有监督学习在许多任务中都很有用，如分类、回归、语音识别、图像识别等。常见的有监督学习算法包括支持向量机、决策树、逻辑回归等。其目标是训练出一个模型，该模型在给定新的未标记数据时，能够预测出相应的标签或输出。

SFT（Supervised Fine-Tuning）是一种常见的有监督学习方法。它基于预训练模型，利用有标签的数据进行微调，以适配特定的任务。通过微调，模型能够利用预先学到的知识，并快速适应新的任务，提高性能和效果。这种方法广泛应用于各种任务，如分类、回归等，并取得了显著的成功。

RLHF（Reinforcement Learning with Human Feedback），是另一种有监督学习方法。它是一种强化学习方法，通过人类反馈来指导智能系统的行为。在RLHF中，人类提供关于智能系统行为的反馈，例如哪些行为是正确的，哪些行为是错误的。智能系统根据这些反馈逐步改进自己的行为策略。这种方法减轻了传统强化学习中需要大量试错的问题，使得智能系统更加高效、快速地学习任务。RLHF特别适用于复杂或主观的任务，例如语言生成任务，因为在这些任务中很难明确定义损失函数。通过人类反馈，RLHF可以生成更加符合人类意图和偏好的输出。

上下文学习：捕捉数据内在关联

预训练好的 GPT-3 模型拥有一项神奇的能力，后来被称为：上下文学习（In-Context Learning），也叫情境学习。

这项能力简单来说就是，预训练好的 GPT-3 模型在迁移到新任务上的时候并不需要重新训练，而只需要提供任务描述（这个任务描述是可选项）接着提供几个示例（任务查询和对应答案，以一对对的形式组织），最后加上要模型回答的查询。将以上内容打包一起作为模型的输入，则模型就能正确输出最后一个查询对应的答案。

举个例子：比如现在想用 GPT-3 来做个翻译任务，翻译英文为法文。输入的格式如下：

上下文学习非常的灵活，除了上面展示的翻译任务，还可以做语法修饰甚至写代码。而神奇的地方就在于，在 GPT-3 的训练过程中是并没有显式的提供，类似测试阶段任务描述加示例这样的训练数据。当然 GPT-3 的训练数据量非常巨大（比如包含了 wiki, 书本期刊，reddit 上的讨论等等），或许里面就已经包含了各种任务类似结构的数据。