我要投稿

大模型中的Token是什么意思？

发布日期：2024-08-06 22:01:54 浏览次数： 6862

作者：智能体爱好者

微信搜一搜，关注“智能体爱好者”

1. 引言

在大模型领域，经常会见到一个词叫作“Token”。比如前段时间国内大模型厂商的价格战，各个大模型都是以Token作为计价单位。

(图片来自网络)

如果你使用过扣子（Coze）之类的智能体平台或调用大模型的API，会发现每次使用大模型处理文本时都会消耗一定数量的Token。比如，下图是扣子一次调试信息中展示的Token消耗量，包括输入Token和输出Token。

那么，Token这个词到底是什么意思呢？

技术背景的人应该知道，Token大致相当于是词语或字符，但为什么大家都不约而同地使用Token这个英文单词，而不使用对应的中文呢？（Token这个词甚至都没有一个对应的中文名称）

相信看完本文，上述问题就会一扫而光。

2. Token的几种含义

在计算机领域，Token是一个很常见的词汇，但在不同的方向，Token往往代表不同的含义。比如在安全、编译器、区块链等方向都有Token一词，但他们的意义各不相同。下面是计算机不同领域中Token的几种典型含义。

计算机安全

在计算机安全领域，Token通常指的是一种安全令牌，用于身份验证和授权。例如，在多因素认证（MFA）中使用的硬件令牌和软件令牌。在Web身份认证时，当用户登录成功，后台通常会生成一个具有时效的字符串作为Token回传给客户端/浏览器，后续客户端/浏览器每次请求都会带上Token，后台只要验证Token即可判断用户登录状态。

网络

在网络通信中，Token可以指一种访问控制机制，用于管理对共享资源的访问。例如，令牌环网络中使用的Token传递机制。

编译器

在编译器设计中，Token是源代码中最小的有意义元素，称为“符号”，如关键字、运算符、标识符等。词法分析器会将源代码分解成Token，供语法分析器使用。

区块链

在区块链行业或币圈，Token通常指的是一种数字资产（代币），可以代表某种权利或价值。例如，比特币和以太坊中的加密货币就是典型的Token。

自然语言处理

在自然语言处理（NLP）领域，Token是指文本中的最小单位，可以是单词、子词或字符。Token化（即分词）是将文本分割成Token的过程，这是NLP任务的基础。

3. 大模型中的Token

大语言模型和自然语言处理是一脉相承的，所以大模型中的Token与自然语言处理中的Token是一个意思。

在大模型（如GPT-4）中，Token是模型处理和理解文本的基本单位。模型通过将用户输入文本分割成Token，然后在这些Token的基础上进行计算和推理，并产生输出Token，最后将输出Token转换为用户可理解的文本。如下图所示：

在大模型内部，每个Token都对应一个向量表示，大模型通过这些向量进行语言理解和生成，通过使用Token（向量），大模型能够更高效地进行计算和推理。从上图可以看出，Token与文本（自然语言）之间是可以通过Tokenizer（分词器）进行相互转换的。

以上对大模型中Token的描述，仍然比较抽象。接下来，我们通过具体的例子看看Token到底长什么样。

对于英文来讲，通过GPT自带的Tokenizer可以直观地看到英文句子转换成的Token序列。如下图所示，这句话包含224个字符，被转换成49个Token。同时，还可以发现，Token并不是严格按照英文单词粒度进行划分的，如：tokenization被分成了token和ization两个Token，Newer被分成了New和er两个Token。此外，单词前面的空格与单词一起被划分为一个Token。

上图显示结果是文本表示的Token，大模型并不是直接处理文本形式的Token的，每个Token都有一个唯一ID，大模型在推理计算时，会基于Token的唯一ID进行一系列转换。通过切换Text/Token IDs标签，可以看到Token文本和ID的映射关系，如：示例中第一个Token：It的ID是2181。

中文Token和英文是类似的，下图通过通义千问的Token计算器展示了中文句子Token化的结果以及Token文本和ID的对应关系。从结果也可以看出，中文Token和我们常用的汉语词语并不完全一致，比如“大模型”这个词被分成了“大”和“模型”两个Token，而“的基础”并非一个汉语词语，却被分为一个Token。

还有一点需要说明的是，由于各个大模型使用的分词器（Tokenizer）不同，所以同样一句话，在不同的大模型中Token化的结果可能是不一样的。如上图中这句话，在通义千问中被分出60个Token，而在文心一言中被分成了50个Token。

由此可见，大模型中的Token与我们所熟知的字符或词语是不同的。它是分词器（Tokenizer）根据一定算法将文本切割为一个个的小片段，可能是一个字符/符号、一个词语、或是半个词，甚至是一个由经常同时出现的字符/词语构成的序列。根据OpenAI的文档，一个Token大致相当于4个英文字符。根据腾讯混元文档说明，一个Token大概相当于1.8个汉字或3个英文字母。

4. Token化过程

Token化是将文本分割成Token的过程，中文称为“分词”，这个过程对于大模型理解和处理自然语言至关重要。不同的Token化方法会根据具体应用和需求选择不同的策略。常见的Token化方法包括：

按单词分割：将文本按空格分割成单词。优点是易于理解，但在处理未登录词（out-of-vocabulary）时会有问题。
按字符分割：将文本按字符分割。优点是处理灵活，但会生成大量Token，增加计算负担。
按子词分割：将文本分割成更小的子词单元，平衡了词级和字符级的优缺点。常用的子词分割算法有：Byte Pair Encoding（BPE）、WordPiece、SentencePiece、Unigram。