我要投稿

AI 大模型训练中，通常会采用哪些方法？(输入篇)

发布日期：2024-06-29 07:41:33 浏览次数： 3783

作者：程序锅锅

微信搜一搜，关注“程序锅锅”

某种程度来说大模型训练的核心算法就是300到400行代码，如果真正理解了并不难。下面我将带大家分析常规大模型训练有几个阶段以及在训练中一般会用到哪些方法。

由上图可以看出，大模型训练主要有四个阶段：预训练、有监督微调、奖励建模、强化学习。开始的第一个阶段是预训练阶段。这个阶段在这个图中有点特殊，因为这个图没有按比例缩放。实际上预训练消耗的时间占据了整个训练pipeline的99%。

因此，这个阶段就是我们在超级计算机中使用数千个GPU以及数月的训练来处理互联网规模数据集的地方。

其他三个阶段是微调阶段，更多地遵循少量GPU和数小时或数天的路线。

那么首先让我们来看看预训练阶段用到了哪些方法。

1.数据分布

首先做预训练需要收集大量数据，那么数据分布大致需要满足什么条件呢？

由上图可以看出，这是Meta发布了关于Llama基础模型训练时候的数据分布。大约1.4T的tokens，包含github、Wikeipedia等数据。

我们都知道大模型需要大量的高质量的训练数据，在目前这个Transformer为主导的背景下，算法其实差不多都固化了。市面上有关大模型的公司，投入人力物力最大的地方除了算力就是数据这一块了。如何高效获取数据、清洗数据、标注数据、质检数据以及如何平衡各类别数据占比等等问题是否解决，决定了这个大模型是否work。

数据问题解决后，接下来面对的问题是：机器只知道01二进制，如何把这些数据转化成机器能够看懂的语言？

2.标记化（tokenization）

实际训练这些数据之前，我们需要再经过一个预处理步骤，即标记化（tokenization）。

如上图所示tokenization分为两个阶段，第一阶段将原始文本转化成tokens，请注意并不是说一个单词就是一个token，这与你采用的tokenization算法相关。第二阶段，将tokenization之后的tokens，去词表中查找对应的ids，输出得到一个很长的整数列表。

举个例子，下面我以GPT2为例，展示如何使用tiktoken这个python包来实现tokenization。

代码：

import tiktoken
input = "The GPT family of models process text using tokens, which are commonsequences of characters found in text. The models understand thestatistical relationships between these tokens, and excel at producingthe next token in asequence of tokens.You can use the tool below to understand how a piece of text would betokenized by the API, and the total count of tokens in that piece oftext."
enc = tiktoken.encoding_for_model("gpt2")

enc_output =  enc.encode(input)
print("输入文字:"+str(input))
print("编码后的token："+str(enc_output))
for token in enc_output:
    print("将token:"+str(token)+" 变成文本:"+str(enc.decode_single_token_bytes(token)))

#输入文字:The GPT family of models process text using tokens, which are commonsequences of characters found in text. The models understand thestatistical relationships between these tokens, and excel at producingthe next token in asequence of tokens.You can use the tool below to understand how a piece of text would betokenized by the API, and the total count of tokens in that piece oftext.
#编码后的token：[464, 402, 11571, 1641, 286, 4981, 1429, 2420, 1262, 16326, 11, 543, 389, 2219, 3107, 3007, 286, 3435, 1043, 287, 2420, 13, 383, 4981, 1833, 262, 14269, 19929, 6958, 1022, 777, 16326, 11, 290, 27336, 379, 9194, 1169, 1306, 11241, 287, 257, 43167, 286, 16326, 13, 1639, 460, 779, 262, 2891, 2174, 284, 1833, 703, 257, 3704, 286, 2420, 561, 731, 4233, 1143, 416, 262, 7824, 11, 290, 262, 2472, 954, 286, 16326, 287, 326, 3704, 286, 5239, 13]

上面说的是GPT2的tokenization，GPT-3.5和GPT-4 等较新的模型使用与以前的模型不同的tokenization，并且将为相同的输入文本生成不同的tokens。

如果你想体验GPT-3.5和GPT-4的tokenization，只需更换成如下代码即可。

enc = tiktoken.encoding_for_model("cl100k_base")

3.嵌入化（embedding）

介绍embedding时，首先要弄明白几个名词：

dim：embedding后的向量长度
vocab_size：词表的长度

通过2.tokenization编码后得到tokens：[464, 402, 11571, ...,13]，共计79个数字。

通过embedding层，即权重为[vocab_size, dim]的矩阵。

所以我们的 [79x1] tokens通过embedding层，输出是 [79x4096]，即79个长度为4096的向量（每个token一个）

代码实现如下：

import torch
vocab_size = 50257
dim = 4096
embedding_layer = torch.nn.Embedding(vocab_size, dim)
tokens = torch.tensor(enc_output)
token_embeddings_unnormalized = embedding_layer(tokens).to(torch.bfloat16)
token_embeddings_unnormalized.shape
# shape:(79,4096)

4.batch思想

我们将embedding后的数组输入Transformer，不可能全部一次性输入，需要用batch思想分批导入。

在此批量大小是B，T是最大上下文长度。

在上面这个图中，长度T只有10，实际工作这可能是2000、4000 等等，在llama3中，T可达到8192。

5.归一化（Normalization）

输出embedding后，我们还需做归一化。做归一化的原因有很多：1、同一量纲；2、加速收敛；3、提高模型性能等等。很多解释都是实验结果导向，实验做好了，自然有很多故事来解释它。下面我们来解释大模型训练中常用到的一些归一化方法。

首先需要理解LayerNorm

Layer Normalization (LayerNorm) 是一种归一化技术，常用于深度学习模型中，特别是在 Transformer 模型中。

与 Batch Normalization 不同，Layer Normalization 是在特征维度上进行标准化的，而不是在数据批次维度上。

Layer normalization 的计算可以分为两步。

（1）计算均值和方差。

在本文章的例子中，“The”这个token可以表示成一个4096维度的向量。需计算这个向量中所有元素的均值与方差。

（2）标准化和重新缩放

利用（1）中计算得到的均值与方差，将该向量标准化。并且设置两个可学习的参数，重新缩放和偏移。

总结一句话：LayerNorm就是将每个token对应向量的数据分布通过线性变换转化成正态分布。

代码如下：

class LayerNorm(nn.Module):
    def __init__(self,num_features,eps=1e-6):
        super().__init__()
        self.gamma = nn.Parameter(torch.ones(num_features))
        self.beta = nn.Parameter(torch.zeros(num_features))
        self.eps = eps
 
    def forward(self,x):
        mean = x.mean(dim=-1,keepdim=True)
        std = x.std(dim=-1,keepdim=True,unbiased=False)
        normalized_x = (x - mean) / (std + self.eps)
        return self.gamma * normalized_x + self.beta

RMS Norm

RMS Norm是LayerNorm的一种变体，LLaMA最新开源的LLaMA3也使用到了RMS Norm。

相比普通正则化，它的计算效率更高，并且原论文的实验结果显示这种简化并没有对模型的训练速度和性能产生明显影响。

具体RMS Norm计算过程如上所示，我们使用RMS Norm对embedding输出进行归一化,计算公式如下。

其中为输入，如果dim=4096,即i=0,1,2...,4095。

为输出，同理，i=0,1,2...,4095：

RMS Norm代码实现如下：

def rms_norm(tensor, norm_weights):
    return (tensor * torch.rsqrt(tensor.pow(2).mean(-1, keepdim=True) + norm_eps)) * norm_weights

为什么要用Layer Norm不用Batch Norm

很多图像识别方面的任务都是采用Batch Norm，为什么在文本大模型这一块一般不使用Batch Norm而是使用Layer Norm呢？

首先，Transformer中的输入序列长度可变,不同样本的序列长度不同,具体实现的时候需要通过pad来满足序列长度的统一。在这样的情况下，Batch Norm计算每个batch的均值和方差不太合理，而LayerNorm在每个样本内部做归一化,不受batch size影响。

53AI，企业落地大模型首选服务商

产品：场景落地咨询+大模型应用平台+行业解决方案

承诺：免费场景POC验证，效果验证后签署服务协议。零风险落地应用大模型，已交付160+中大型企业

相关资讯

2025-07-08

Dify中的MCP相关插件及FastMCP服务实现原理

2025-07-08

🧠提示词的魔力：Prompt 为什么能控制大模型？

2025-07-08

一文看懂“提示词” vs “提示词工程” vs “上下文工程”

2025-07-08

实测17种提示词工程技术

2025-07-08

Google: Prompt Engineering白皮书

2025-07-08

再见，Prompt Engineering；你好，Context Engineering

2025-07-05

别空谈Prompt了！未来真正有用的是上下文工程！

2025-07-04

PromptMuse：让你的提问，成为开启 AI 潜能的钥匙

了解更多

160+中大型企业正在使用53AI

立即咨询预约演示

把握AI发展的机遇，共同探索、共同进步

2025-01-22

如何打造基于GenAI的员工服务机器人

2025-01-22

热点资讯

CoT思维链技术解读及ToT、GoT、PoT等提示词工程框架介绍

2025-05-08

别再和AI说废话了，谷歌的6个prompt黄金法则让你的AI秒变学霸

2025-05-08

Claude 系统提示词泄露！

2025-05-08

Google 官方提示工程 (Prompt Engineering)白皮书完整翻译和 PDF 下载

2025-04-11

我整理了10+提示词，这才是Qwen3的正确打开姿势

2025-05-07

小白也能写出专业文生图Prompt，超棒的提示词框架+AI生图工具分享。

2025-04-14

【万字长文】一文搞懂：提示词和提示词工程

2025-05-19

字节新产品太强了，让你轻松成为提示词大师！

2025-06-12

重磅！OpenAI 官方发布 GPT-4.1 最强提示词指南，AI 能力全面升级！

2025-04-16

还在用“请帮我生成...”？谷歌发布提示词秘籍，让AI秒懂你！

2025-05-07

大家都在问

🧠提示词的魔力：Prompt 为什么能控制大模型？

2025-07-08

Prompt 到底有啥用？为什么写得好能提升 AI 效果这么多？

2025-07-04

什么是提示词设计？

2025-06-23

为什么大家很少提及Prompt（提示词）了?

2025-06-14

为什么不会提示词（Prompt）用不好AI？

2025-06-04

Claude 4 核心提示词曝光｜最懂提示词的大模型公司，现在怎么写 Prompt？

2025-06-02

字节跳动深度研究框架DeerFlow提示词解析 - 如何通过提示词工程驱动Multi Agents？

2025-05-17

AI创业者｜你辛苦写的提示词，是否属于商业秘密？

2025-05-16

热门标签

内容创作大模型技术个人提效 langchain llamaindex 多模态技术 RAG技术智能客服知识图谱模型微调 RAGFlow coze Dify Fastgpt Bisheng Qanything AI+汽车 AI+金融 AI+工业 AI+培训 AI+SaaS 提示词框架提示词技巧 AI+电商 AI面试数字员工 ChatBI 知识管理开源大模型智能营销智能硬件智能化改造 AI+医疗 MaxKB