我要投稿

大模型领域常见的7个术语

发布日期：2025-03-30 23:08:16 浏览次数： 1705 作者：大数据产品设计与运营

大模型领域经常会碰到一些专用术语，比如参数、token之类的，对于非技术出身的同学来说理解起来有一定的苦难，笔者在这里梳理了大模型领域常见的7个术语，在用技术语言做定义和解释后，用生活化的例子做了类比，希望能有助于非技术背景的同学来理解它们。

1、参数

参数（Parameters）是大型语言模型（LLM）内部的可调整变量，决定输入到输出的映射关系，用于从输入数据中提取规律、生成预测或文本。这些参数通过训练过程（如海量文本的学习）被优化，最终决定模型的行为和能力。参数量级（如千亿级）直接影响模型容量和性能。例如GPT-3的参数规模高达1750亿个，每个参数都参与对语言模式（如语法、逻辑、常识）的建模。

大模型的参数分为三类：权重参数（Weights）、偏置参数（Biases）、嵌入参数（Embeddings）。权重参数包括全连接层权重、注意力机制中的查询（Query）、键（Key）、值（Value）矩阵等。权重参数的作用是控制神经元之间的连接强度，决定输入信号如何被传递和组合。例如，在“The cat sat on the ___”句子中，参数会影响模型预测“mat”而非“cloud”。偏置参数作用在于调整神经元激活的阈值，增强模型灵活性。例如，在情感分析中，偏置可能帮助模型区分正向/负向词汇的边界。嵌入参数（Embeddings）的作用是将离散的词汇映射为连续的高维向量，捕捉语义关联（如“king - man + woman ≈ queen”）。

用生活中的一个实例来理解参数。想象一个邮局的分拣系统，参数相当于其分拣规则，参数像邮局的“智慧大脑”，通过经验制定规则。例如：按地区编码（如“上海：以20开头”）分配包裹到不同区域。按重量（如“<1kg走空运，>1kg走陆运”）选择运输方式。这些规则通过长期处理包裹数据（训练）不断优化，最终让分拣更高效、准确。

2、 Token

Token是文本的离散化表示，类似于人类语言中的“词汇片段”，其粒度由分词算法决定。例如：英文中，“unhappy”可能拆分为["un", "happy"]两个子词Token；中文中，“人工智能”可能被分词为["人工", "智能"]或保留为单一Token（取决于模型训练策略）。

还是用邮局的分拣系统的实例来理解。Token类似于邮局分拣的包裹，每个包裹（Token）包含具体的内容和标签，如“一箱书本”（对应文本中的“知识”）或“一盒生鲜”（对应“时效性信息”）；再如收件地址、重量（类似Token的语义和位置编码）。Token的作用就相当于邮局按规则（参数）处理每个包裹（Token），最终完成分拣任务。大模型则按参数处理Token序列，生成连贯回答。

Token是大型语言模型（LLM）处理文本的最小语义单位，它将原始文本（如单词、子词或符号）转化为模型可识别的数字编码，是语言理解与生成的基础。Token作为语言模型的“原子单位”，Token化是LLM理解人类语言的第一道桥梁，其设计直接影响模型效率、泛化能力与安全性。

3、 注意力机制

注意力机制（Attention Mechanism）是大模型动态分配“认知资源”的核心算法，其核心逻辑是：在处理输入信息时，模型会自动判断哪些部分更重要，并为其分配更高的权重。例如，翻译句子“I love reading books about AI”时，模型生成“AI”对应的中文词“人工智能”时，会重点关注“books”和“AI”这两个词，而忽略次要信息（如“I love”）。

注意力机制（Attention Mechanism）是LLM实现上下文感知的核心技术，其本质是通过动态分配权重，让模型在处理序列数据时聚焦于关键信息，忽略无关噪声。

注意力机制类似于交响乐团指挥的“动态协调”，假设一位交响乐团指挥（注意力机制）需要带领小提琴组、管乐组、打击乐组（输入信息的不同部分）完成一段复杂乐章。他的任务是根据乐谱（任务目标）动态协调各组演奏的强度和时机。由此可见，注意力机制就像交响乐团指挥，通过动态分配“注意力权重”，让模型像协调乐器声部一样，从复杂信息中捕捉关键线索，最终输出精准、连贯的结果。

4、 思维链

思维链（Chain of Thought，CoT）是大模型解决复杂问题时，通过显式生成中间推理步骤来模拟人类逻辑思维的过程。思维链是逻辑推理的“分步导航”，它通过模拟人类逐步推理过程来提升人工智能模型复杂任务处理能力的技术核心是将问题拆解为多个中间步骤，引导模型生成逻辑链条，从而增强推理的准确性、可理解性和可解释性

思维链的基本原理：

² 分布推理：思维链通过将复杂问题分解为更小的子问题，逐步构建答案

² 显示中间过程：与传统直接输出答案的方式不同，CoT要求模型引入推导过程

以修理漏气的自行车轮胎为例来理解下思维链。

假设你的自行车轮胎漏气，需要找到原因并修复。直接处理（无CoT）可能盲目更换内胎，而思维链模式会引导你逐步排查：

STEP1、问题拆解：

² 观察现象：轮胎完全瘪了→初步判断漏气；

² 细化目标：找到漏气点→修复或更换内胎。

STEP2、分步推理：

步骤1：检查外胎是否有尖锐物（如钉子）→发现无刺入物；

步骤2：拆下内胎，浸入水中找气泡 →发现气门芯处冒泡；

步骤3：确认气门芯松动→拧紧后测试是否漏气；

步骤4：若仍漏气，更换新气门芯。

STEP3、逻辑验证：

排除其他可能性（如胎壁破损），确保结论唯一性。

由此可见，思维链就像修理自行车时的“排查流程图”，让模型从“凭感觉猜答案”升级为“按步骤解谜题”。思维链也很像一个故障诊断手册，将模糊问题转化为可操作的验证序列。它迫使模型（或人类）从“结果导向猜测”转向“过程导向验证”，通过因果链显式化降低决策盲区，最终在复杂系统中锚定最优解。

5、 预训练

预训练（Pre-training）是大型语言模型（LLM）通过自监督学习在大规模无标注文本数据上训练的过程，其核心目标是让模型学习通用的语言表征能力。预训练的技术本质是自监督学习框架下的表征学习，即模型通过自动生成的预测任务（如掩码词预测、下一词生成）捕捉词汇、句法、语义和世界知识的统计规律，形成一套可迁移的“理解-生成”能力基座。