支持私有云部署
AI知识库

53AI知识库

学习大模型的前沿技术与行业应用场景


一文看懂预训练、微调和上下文学习

发布日期:2025-04-02 17:53:21 浏览次数: 1576 作者:科技词话
推荐语

掌握深度学习模型训练的核心技巧。

核心内容:
1. 预训练、微调和上下文学习的概念与区别
2. 大模型训练中这三种技术的应用实例
3. 无监督学习与有监督学习在模型训练中的作用和影响

杨芳贤
53A创始人/腾讯云(TVP)最具价值专家

随着深度学习的发展,大模型已经成为了人工智能领域的重要支柱。在大模型的训练和应用过程中,预训练(Pre-training,简称PT)、微调(Fine-tuning,简称FT)和上下文学习(In-Context Learning,简称ICL)是三种关键技术。本文将介绍这三种技术的概念、差异点以及在大模型中的应用。

先看一张介绍三者关系的图,广义上的训练包括预训练、微调和上下文学习,狭义上的训练专指预训练这个阶段。我们耳熟能详的大模型公司智谱AI、百川智能,他们提供的模型如GLM-130B、Baichuan-2-192K等,都是预训练好的模型,我们平常说的炼丹,一般也是指预训练。


预训练、微调和上下文学习在目标、方法和应用场景上存在一定差异。
预训练旨在学习到通用的特征表示,提高模型的泛化能力;
微调则是针对特定任务进行参数调整,提高任务适应性;
上下文学习则关注数据之间的上下文关系,提升模型对数据内在结构和关联的理解。


预训练:打造通用特征提取器

预训练(Pre-training,PT)是指在大量数据上进行模型训练,使模型学习到通用的特征表示。这种训练方式可以让模型在特定任务上具备更好的泛化能力。预训练通常采用无监督学习方法,如自编码器、生成对抗网络等。在大模型中,预训练可以显著提高模型的性能,减少训练时间和计算资源。在预训练期间,模型会接触到大量未标记的文本数据,例如书籍、文章和网站。在大量未标记文本数据上训练语言模型。比如说在包含数百万本书、文章和网站的数据集上预训练像 GPT-3 这样的语言模型。预训练目标是捕获文本语料库中存在的底层模式、结构和语义知识。

所谓无监督学习(Unsupervised Learning,简称UL)是机器学习的一种学习方法。在无监督学习中,模型没有给定的标签或目标输出,而是从输入数据中自行学习数据的内在结构和特征表示。这种学习方式旨在发现数据中的模式、关联或聚类,而不需要人工标注的数据。无监督学习在预处理、特征提取、降维和聚类等任务中广泛应用,常见的无监督学习算法包括自编码器、生成对抗网络、K-均值聚类等。

调:任务专属优化利器

微调(Fine-tuning,FT)是在预训练模型的基础上,针对特定任务进行进一步的训练。通过微调,模型可以在特定任务上实现更好的性能。微调通常采用有监督学习方法,利用标签数据对模型参数进行调整。在大模型中,微调可以充分利用预训练模型的通用特征表示,实现更高效的任务适应性。

所谓有监督学习(Supervised Learning)是在机器学习领域中使用的一种方法,其中模型通过使用已知标签的训练数据来进行学习。在监督学习中,我们有一个输入数据集和一个相应的标签或目标输出数据集。模型通过学习输入与输出之间的关系,尝试预测新数据的标签。这种方法称为“有监督”,因为模型在学习过程中受到训练数据中标签的监督。它依赖于标记好的训练数据,这些数据通常是经过人工分类或标注的。

有监督学习在许多任务中都很有用,如分类、回归、语音识别、图像识别等。常见的有监督学习算法包括支持向量机、决策树、逻辑回归等。其目标是训练出一个模型,该模型在给定新的未标记数据时,能够预测出相应的标签或输出。

SFT(Supervised Fine-Tuning)一种常见的有监督学习方法它基于预训练模型,利用有标签的数据进行微调,以适配特定的任务。通过微调,模型能够利用预先学到的知识,并快速适应新的任务,提高性能和效果。这种方法广泛应用于各种任务,如分类、回归等,并取得了显著的成功。

RLHF(Reinforcement Learning with Human Feedback),是另一种有监督学习方法它是一种强化学习方法,通过人类反馈来指导智能系统的行为在RLHF中,人类提供关于智能系统行为的反馈,例如哪些行为是正确的,哪些行为是错误的。智能系统根据这些反馈逐步改进自己的行为策略。这种方法减轻了传统强化学习中需要大量试错的问题,使得智能系统更加高效、快速地学习任务。RLHF特别适用于复杂或主观的任务,例如语言生成任务,因为在这些任务中很难明确定义损失函数。通过人类反馈,RLHF可以生成更加符合人类意图和偏好的输出。

上下文学习:捕捉数据内在关联

预训练好的 GPT-3 模型拥有一项神奇的能力,后来被称为:上下文学习(In-Context Learning),也叫情境学习

这项能力简单来说就是,预训练好的 GPT-3 模型在迁移到新任务上的时候并不需要重新训练,而要提供任务描述(这个任务描述是可选项)接着提供几个示例(任务查询和对应答案,以一对对的形式组织),最后加上要模型回答的查询。将以上内容打包一起作为模型的输入,则模型就能正确输出最后一个查询对应的答案。

举个例子:比如现在想用 GPT-3 来做个翻译任务,翻译英文为法文。输入的格式如下:

上下文学习非常的灵活,除了上面展示的翻译任务,还可以做语法修饰甚至写代码。而神奇的地方就在于,在 GPT-3 的训练过程中是并没有显式的提供,类似测试阶段任务描述加示例这样的训练数据。当然 GPT-3 的训练数据量非常巨大(比如包含了 wiki, 书本期刊,reddit 上的讨论等等),或许里面就已经包含了各种任务类似结构的数据

53AI,企业落地大模型首选服务商

产品:场景落地咨询+大模型应用平台+行业解决方案

承诺:免费场景POC验证,效果验证后签署服务协议。零风险落地应用大模型,已交付160+中大型企业

联系我们

售前咨询
186 6662 7370
预约演示
185 8882 0121

微信扫码

添加专属顾问

回到顶部

加载中...

扫码咨询