我要投稿

一文读懂token到底是什么鬼，消耗那么多钱？兼看国产模型收费标准| 从外到内理解大模型系列

发布日期：2024-07-18 04:38:24 浏览次数： 3508

百度搜索 token 的解释是：令牌；代币; 象征，标志，表示，信物;礼券；专用辅币;代价券;赠券。最初看论文的时候，看到这个词很难把它跟NLP中的知识点连接起来，懵逼了很久。

今天让我们一起来完整理解token在LLM大预言模型中代表的是个什么东西，它是怎么在我们访问ChatGPT类产品时消耗预算的。同时也让我们在今后跟别人聊天聊到token时，能心里有底。

本文包含以下几个部分：

LLM里面token是啥

token一般怎么计算

国产大模型切分token展示

大模型收费标准

其它领域token是啥

LLM里面token是啥

人类在阅读文本时，例如： “我爱人工智能”；了解的人获得信息的断句是：我_爱_人工智能，依次送入到我们的大脑中去理解；同样，我们将信息输入到文本时，也是按照切分后输入到模型中的。因此这一个一个的输入就叫token，例如上例中：“我”是一个token，“爱”是第二个token，“人工智能”是第三个token。

当然，对于没有背景知识的人上例的断句也可能是：我_爱_人工_智能；对于刚学习认字的小孩来说，断句是：我_爱_人_工_智_能。不同的人断句的方式不同，与此相同，市面上的大模型厂商切词也会有细微的差别，不同切词的方式，同一句话切出来的token是不一样的。

token就是切分后，一个个小片段；与人类阅读一样，在GPT类模型中token也是一个一个逐次输入到模型中。

下面看一下大模型是怎么理解的：

token一般怎么计算

按字切分

在中文中很直观的想法就是按单个字切分，这样切确实比较有效，可以很方便构建词表也就5000多个常见字；但是这个问题，中文表达意思的都是词，单个字表达意思不完善，不利于模型理解；

同样的英文也可以用单个字母切分，这样也会遇到中文同样的问题，意思表达不完善；另外一个严重问题是会导致切分后的句子非常长，占用太多的token.

按词切分

按词切分，在一段时期里面用的比较多，采用常见词+单字构建词表，这样可以有效表示语义信息，同时可以控制词表大小；但是英文也存在一个问题，就是英文单词很多，上百万的样子，这样词表太大，很难进行计算；因此需要继续切分，例如：可以把英文的前缀后缀切出来，这样可以很大程度上减少词表。

按词片切分

按词片切分可以很大程度上平衡语义信息和词表大小，它是怎么运行的呢？

一般会有一个很大的资源集C，指定一个词表大小N，然后统计里面的片段组合，例如，三个字组合；这种组合会非常多超过N，然后去掉频次比较少的组合，一直到组合的总数小于N为止，这样词表就构造出来了。

从上面的介绍可以看出，资源集C不同，词表大小N不同，去除的方式不同都会导致词表不同，最后导致一句话切出的token不同。

一般采用的方法有BPE、WordPiece等算法，具体的可以去查看。

国产大模型切分token展示

以今天的一则金融新闻为例(127个字)：

7月3日晚间，中国平安和陆金所控股于港交所发布联合公告，由于中国平安在陆金所控股派发特别股息中选择股票分红方式收取相应股息 （股息派发后，中国平安控制的陆金所控股股份将达到56.82%），将被动并表陆金所控股，并触发香港《收购守则》下规定的强制性全面要约。

Qwen切分后结果(90个token)：

['7', '月', '3', '日晚间', '，', '中国', '平安', '和', '陆', '金', '所', '控股', '于', '港', '交', '所', '发布', '联合', '公告', '，', '由于', '中国', '平安', '在', '陆', '金', '所', '控股', '派', '发', '特别', '股', '息', '中', '选择', '股票', '分红', '方式', '收取', '相应', '股', '息', '（', '股', '息', '派', '发', '后', '，', '中国', '平安', '控制', '的', '陆', '金', '所', '控股', '股份', '将达到', '5', '6', '.', '8', '2', '%', '），', '将', '被动', '并', '表', '陆', '金', '所', '控股', '，并', '触发', '香港', '《', '收购', '守', '则', '》', '下', '规定的', '强制', '性', '全面', '要', '约', '。']

YI切分后结果(90个token)：

['▁', '7', '月', '3', '日晚', '间', '，', '中国', '平安', '和', '陆', '金', '所', '控股', '于', '港', '交所', '发布', '联合', '公告', '，', '由于', '中国', '平安', '在', '陆', '金', '所', '控股', '派', '发', '特别', '股', '息', '中', '选择', '股票', '分红', '方式', '收取', '相应', '股', '息', '（', '股', '息', '派', '发', '后', '，', '中国', '平安', '控制的', '陆', '金', '所', '控股', '股份', '将达到', '5', '6', '.', '8', '2', '%）', '，', '将', '被动', '并', '表', '陆', '金', '所', '控股', '，', '并', '触发', '香港', '《', '收购', '守', '则', '》', '下', '规定的', '强制性', '全面', '要', '约', '。']

注意：现在大模型切分，基本把数字当作单个token，数字越多比较吃亏哦。

下图是不同模型，一句话切token后的压缩比例：