微信扫码
与创始人交个朋友
我要投稿
百度搜索 token 的解释是:令牌;代币; 象征,标志,表示,信物;礼券;专用辅币;代价券;赠券。最初看论文的时候,看到这个词很难把它跟NLP中的知识点连接起来,懵逼了很久。
今天让我们一起来完整理解token在LLM大预言模型中代表的是个什么东西,它是怎么在我们访问ChatGPT类产品时消耗预算的。同时也让我们在今后跟别人聊天聊到token时,能心里有底。
本文包含以下几个部分:
LLM里面token是啥
token一般怎么计算
国产大模型切分token展示
大模型收费标准
其它领域token是啥
LLM里面token是啥
人类在阅读文本时,例如: “我爱人工智能”;了解的人获得信息的断句是:我_爱_人工智能,依次送入到我们的大脑中去理解;同样,我们将信息输入到文本时,也是按照切分后输入到模型中的。因此这一个一个的输入就叫token,例如上例中:“我”是一个token,“爱”是第二个token,“人工智能”是第三个token。
当然,对于没有背景知识的人上例的断句也可能是:我_爱_人工_智能;对于刚学习认字的小孩来说,断句是:我_爱_人_工_智_能。不同的人断句的方式不同,与此相同,市面上的大模型厂商切词也会有细微的差别,不同切词的方式,同一句话切出来的token是不一样的。
token就是切分后,一个个小片段;与人类阅读一样,在GPT类模型中token也是一个一个逐次输入到模型中。
下面看一下大模型是怎么理解的:
token一般怎么计算
按字切分
在中文中很直观的想法就是按单个字切分,这样切确实比较有效,可以很方便构建词表也就5000多个常见字;但是这个问题,中文表达意思的都是词,单个字表达意思不完善,不利于模型理解;
同样的英文也可以用单个字母切分,这样也会遇到中文同样的问题,意思表达不完善;另外一个严重问题是会导致切分后的句子非常长,占用太多的token.
按词切分
按词切分,在一段时期里面用的比较多,采用常见词+单字构建词表,这样可以有效表示语义信息,同时可以控制词表大小;但是英文也存在一个问题,就是英文单词很多,上百万的样子,这样词表太大,很难进行计算;因此需要继续切分,例如:可以把英文的前缀后缀切出来,这样可以很大程度上减少词表。
按词片切分
按词片切分可以很大程度上平衡语义信息和词表大小,它是怎么运行的呢?
一般会有一个很大的资源集C,指定一个词表大小N,然后统计里面的片段组合,例如,三个字组合;这种组合会非常多超过N,然后去掉频次比较少的组合,一直到组合的总数小于N为止,这样词表就构造出来了。
从上面的介绍可以看出,资源集C不同,词表大小N不同,去除的方式不同都会导致词表不同,最后导致一句话切出的token不同。
一般采用的方法有BPE、WordPiece等算法,具体的可以去查看。
国产大模型切分token展示
以今天的一则金融新闻为例(127个字):
7月3日晚间,中国平安和陆金所控股于港交所发布联合公告,由于中国平安在陆金所控股派发特别股息中选择股票分红方式收取相应股息 (股息派发后,中国平安控制的陆金所控股股份将达到56.82%),将被动并表陆金所控股,并触发香港《收购守则》下规定的强制性全面要约。
Qwen切分后结果(90个token):
['7', '月', '3', '日晚间', ',', '中国', '平安', '和', '陆', '金', '所', '控股', '于', '港', '交', '所', '发布', '联合', '公告', ',', '由于', '中国', '平安', '在', '陆', '金', '所', '控股', '派', '发', '特别', '股', '息', '中', '选择', '股票', '分红', '方式', '收取', '相应', '股', '息', '(', '股', '息', '派', '发', '后', ',', '中国', '平安', '控制', '的', '陆', '金', '所', '控股', '股份', '将达到', '5', '6', '.', '8', '2', '%', '),', '将', '被动', '并', '表', '陆', '金', '所', '控股', ',并', '触发', '香港', '《', '收购', '守', '则', '》', '下', '规定的', '强制', '性', '全面', '要', '约', '。']
YI切分后结果(90个token):
['▁', '7', '月', '3', '日晚', '间', ',', '中国', '平安', '和', '陆', '金', '所', '控股', '于', '港', '交所', '发布', '联合', '公告', ',', '由于', '中国', '平安', '在', '陆', '金', '所', '控股', '派', '发', '特别', '股', '息', '中', '选择', '股票', '分红', '方式', '收取', '相应', '股', '息', '(', '股', '息', '派', '发', '后', ',', '中国', '平安', '控制的', '陆', '金', '所', '控股', '股份', '将达到', '5', '6', '.', '8', '2', '%)', ',', '将', '被动', '并', '表', '陆', '金', '所', '控股', ',', '并', '触发', '香港', '《', '收购', '守', '则', '》', '下', '规定的', '强制性', '全面', '要', '约', '。']
注意:现在大模型切分,基本把数字当作单个token,数字越多比较吃亏哦。
下图是不同模型,一句话切token后的压缩比例:
大模型收费标准
GPT-4o
百度
Qwen
ChatGLM
其它领域token是啥
随着互联网的普及,token一词逐步被越来越多的人熟知再加上后来区块链技术的成熟应用,token也被用在了加密货币领域。
对于开发人员来说:token就是在交互的过程中建立访问权限的东西,“令牌”这个翻译很贴切;就像电视剧中,出城得拿着令牌才能放行。
在区块链领域,"token"通常指的是一种数字代币或加密货币资产,它代表着一种加密货币的形态,比如在以太坊平台上广泛使用的ERC-20标准代币。这些代币能够代表特定的资产或具有一定价值,并且可以在去中心化金融(DeFi)领域中用于交易、投资和支付等多种用途。
上面这些内容不需要过多关注,只做了解即可。
下篇文章将介绍,token在输入大模型前会做什么变换数字化,让模型能理解;因为有人问到大模型上百亿的参数是怎么规划生成的?人都整麻了吧。接下来会慢慢拆分出来,讲述这些参数做了些啥。
53AI,企业落地应用大模型首选服务商
产品:大模型应用平台+智能体定制开发+落地咨询服务
承诺:先做场景POC验证,看到效果再签署服务协议。零风险落地应用大模型,已交付160+中大型企业
2024-12-24
2025,AI世界的“大厦已成”,红杉资本的三大AI预测
2024-12-24
国内AI“六小龙”概览
2024-12-24
「深度」O1意义被大大低估!OpenAI核心科学家重磅发声:测试时计算将引爆AGI时代!
2024-12-24
AI大牛解析o3技术路线!大模型下一步技术路线已现端倪?
2024-12-23
AI Agent智能体产品的5个级别
2024-12-23
Anthropic官方揭秘:构建AI智能体的"最强攻略"!
2024-12-23
2025年AI大模型的趋势与洞察
2024-12-23
阶跃星辰完成数亿美元 B 轮融资,发力「超级模型」+「超级应用」
2024-05-28
2024-04-26
2024-08-13
2024-08-21
2024-07-09
2024-06-13
2024-08-04
2024-04-11
2024-07-18
2024-07-01