我要投稿

学大语言模型必须要弄懂的它-Tokenizer

发布日期：2024-05-06 17:54:58 浏览次数： 3052

作者：河指令

微信搜一搜，关注“河指令”

Tokenizer 是自然语言处理中常用的工具，用于将文本数据转换为模型能够理解的输入形式。它的主要作用是将输入的文本分割成单词、子词或者字符，并将它们映射到对应的编号（或者词向量）上。

在深度学习中，文本数据通常需要转换成数值形式才能被神经网络处理，以下我们通过三个步骤，去了解Tokenizer底层原理的实现

1.准备数据

2.为数据进行标记

3.构建一个Tokenizer数据预处理工具

一、准备数据

先加载我们准备好的the-verdict.txt 英文文本，用英文内容主要是英文单词之间可以通过空格或标点符号就可以分割了，词汇量较少，单词之间的边界清晰，准确率高。中文词汇之间没有明显的分割符，而且还需要考虑上下文的语义关系，处理起来相对复杂，不方便我们开始的学习。

下面代码中我们主要是要对文本进行分割，按空格，逗号、句号等特殊符号分割

import re

with open("the-verdict.txt", "r", encoding="utf-8") as f:
    raw_text = f.read()

print("文本的大小:", len(raw_text))
print("查看开头的20个字符为:", raw_text[:20])

preprocessed = re.split(r'([,.?_!"()\']|--|\s)', raw_text)
preprocessed = [item.strip() for item in preprocessed if item.strip()]
print(preprocessed[:20])

文本的大小: 20479
查看开头的20个字符为: I HAD always thought

['I', 'HAD', 'always', 'thought', 'Jack', 'Gisburn', 'rather', 'a', 'cheap', 'genius', '--', 'though', 'a', 'good', 'fellow', 'enough', '--', 'so', 'it', 'was']

二、为数据进行标记

接着对数据进行去重和排序，目的是构建一个词典，所以不需要重复的数据，通过单词，我们可以查到对应的单词索引。

all_words = sorted(list(set(preprocessed)))

# 构建一个词典表，用json来表示，key为单词，value为索引
vocab = {token:integer for integer,token in enumerate(all_words)}

for i, item in enumerate(vocab.items()):
    print(item)
    if i >= 20:
        break

输出的结果可以看到，排在前面的都是特殊字符，接着是我们切割好的单词，按字母进行排序

('!', 0)
('"', 1)
("'", 2)
('(', 3)
(')', 4)
(',', 5)
('--', 6)
('.', 7)
(':', 8)
(';', 9)
('?', 10)
('A', 11)
('Ah', 12)
('Among', 13)
('And', 14)
('Are', 15)
('Arrt', 16)
('As', 17)
('At', 18)
('Be', 19)
('Begin', 20)

三、构建一个Tokenizer数据预处理工具

现在我们要专门一个类来处理文本数据，主要两个功能，通过单词，可以找到对应的标记，通过标记可以找到对应的索引。

以下是我们工具的内容，虽然简单，但是包含的分词两个核心点，文本的编码和解码。

class TokenizerV1:
    
    # 对词表进行初始化，并创建两个变量，str_to_int为单词映射为数字
    # int_to_str为数字映射单词
    def __init__(self, vocab):
        self.str_to_int = vocab
        self.int_to_str = {i:s for s,i in vocab.items()}
    
    # 通过单词找到对应的数字标记
    def encode(self, text):
        preprocessed = re.split(r'([,.?_!"()\']|--|\s)', text)
        preprocessed = [item.strip() for item in preprocessed if item.strip()]
        ids = [self.str_to_int[s] for s in preprocessed]
        return ids
    
    # 通过数字标记找到对应的单词
    def decode(self, ids):
        text = " ".join([self.int_to_str[i] for i in ids])
        text = re.sub(r'\s+([,.?!"()\'])', r'\1', text)
        return text

TokenizerV1初始化，参数为我们的单词词典，并对一段句子进行单词转数字、数字转单词。

tokenizer = TokenizerV1(vocab)

text = """"Why _has_ he chucked painting?" I asked abruptly"""
ids = tokenizer.encode(text)
print(ids)

decodeText = tokenizer.decode(tokenizer.encode(text))
print(decodeText)

输出结果

[1, 115, 118, 537, 118, 541, 268, 766, 10, 1, 55, 184, 125]

" Why _ has _ he chucked painting?" I asked abruptly

我们已经有了文本处理工具了-TokenizerV1，但是它还不够完善，如果我们要查找一个在该文本词典没有的单词，就会出现错误。

要处理这种情况的话，我们要添加特殊的上下文标记，大家可以发散下思想，不同的文本处理，有他们特殊的文本处理方式，有兴趣的话可以多去了解其他库的一些分词处理。

在这里<|endoftext|>意思是为结束的句子增加结束标记。这通常用于连接多个不相关的文本或句子

<|unk|> 意思为未知单词的标记，如果该单词如果在字段中没有，那么我们就把他标记为<|unk|>

preprocessed = re.split(r'([,.?_!"()\']|--|\s)', raw_text)
preprocessed = [item.strip() for item in preprocessed if item.strip()]

all_tokens = sorted(list(set(preprocessed)))
# 在词典的最后增加两个特殊的标记
all_tokens.extend(["<|endoftext|>", "<|unk|>"])

vocab = {token:integer for integer,token in enumerate(all_tokens)}

for i, item in enumerate(list(vocab.items())[-5:]):
    print(item)

可以看到我们在词典的最后增加了对应的特殊标记

('younger', 1156)
('your', 1157)
('yourself', 1158)
('<|endoftext|>', 1159)
('<|unk|>', 1160)

我们重新完善下之前写的工具类

class TokenizerV2:
    def __init__(self, vocab):
        self.str_to_int = vocab
        self.int_to_str = { i:s for s,i in vocab.items()}
    
    def encode(self, text):
        preprocessed = re.split(r'([,.?_!"()\']|--|\s)', text)
        preprocessed = [item.strip() for item in preprocessed if item.strip()]
        # 增加了未知单词标记判断
        preprocessed = [item if item in self.str_to_int 
                        else "<|unk|>" for item in preprocessed]

        ids = [self.str_to_int[s] for s in preprocessed]
        return ids
        
    def decode(self, ids):
        text = " ".join([self.int_to_str[i] for i in ids])
        # Replace spaces before the specified punctuations
        text = re.sub(r'\s+([,.?!"()\'])', r'\1', text)
        return text

再调用工具看看效果，对文本内容进行编码，我们在拼接句子时，在第一个句子后面增加的一个结束的特殊标记

tokenizer = TokenizerV2(vocab)

text1 = "Hello, do you like tea?"
text2 = "In the sunlit terraces of the palace."

text = " <|endoftext|> ".join((text1, text2))

print(text)

encodeText = tokenizer.encode(text)
print(encodeText)

以下是输出的结果，找找看下特殊标记的数字是多少？

好了，本文主要介绍了文本的数据处理，并编写了一个词汇表文本处理工具TokenizerV2，同时我们实现了通过字符查找标记数字，通过数字查找字符，这两个方法是数据预处理的核心，我们想学习大语言模型，是绕不开它的。

53AI，企业落地大模型首选服务商

产品：场景落地咨询+大模型应用平台+行业解决方案

承诺：免费场景POC验证，效果验证后签署服务协议。零风险落地应用大模型，已交付160+中大型企业

相关资讯

2024-07-10

科研助力神器：Scholar GPT，百倍提升你的研究效率！

2024-07-09

Doc2X：一款功能超级强大的文档解析与转换工具

2024-07-06

我对多智能体协作过程自动演化架构设计

2024-07-06

可穿戴AI，底层逻辑的变化

2024-07-06

一文彻底搞懂Transformer - Word Embedding（词嵌入）

2024-07-06

AI动态 | 腾讯元宝AI搜索能力升级：深度搜索模式上线

2024-07-06

智能手表 + AI ，都已经这么智能了？？

2024-07-06

死磕10万卡GPU算力集群，腾讯星脉网络2.0有什么秘密武器？

了解更多

160+中大型企业正在使用53AI

立即咨询预约演示

把握AI发展的机遇，共同探索、共同进步

2025-01-22

如何打造基于GenAI的员工服务机器人

2025-01-22

热点资讯

看大厂PM，如何玩转多个智能体开发平台

2025-06-17

53AI Hub重磅开源！让99%的智能体开发者赚到钱！

2025-06-17

DeepSeek R1-0528 小版本升级

2025-05-29

教你解决GPT4o无法使用新版生图功能的教程

2025-04-11

15个最佳开源 RAG 框架选型指南

2025-04-13

源神降临！阿里 Qwen3 全系发布，免费商用，消费级显卡就能跑！(深度解读 + 实战case)

2025-04-29

AI法规-《生成式人工智能服务管理暂行办法》（中国）（2023.7）

2025-04-12

分而治之：全面解析分布式分离 Inference 系统

2025-04-29

微软突发“封杀令”！全面禁止Cursor使用C、C++、C# 扩展，开发者被迫回退版本

2025-04-12

Qwen3发布: 4B干掉旧代 72B / Windsurf又增加新的免费计划

2025-04-29

大家都在问

毕业季震撼演讲：当AI重塑一切，人类的价值何在？

2025-07-08

国内 Agent 赛道最大融资诞生！阿里云为何重注这家“真能干活”的 AI 公司？

2025-07-08

大模型落地及Agent记忆的有趣观点：兼看SVG生成用多模态大模型怎么做？

2025-07-07

微软裁员9000人！给员工整不会了：用不用AI都要被裁？

2025-07-05

向量相似度检索遇到天花板，是否我们走错了？

2025-07-04

大模型开源，厂商靠什么盈利？

2025-07-04

智能体（Agent）是怎么知道什么时候要调用 Tool 的？

2025-07-04

Prompt 到底有啥用？为什么写得好能提升 AI 效果这么多？

2025-07-04

热门标签

内容创作大模型技术个人提效 langchain llamaindex 多模态技术 RAG技术智能客服知识图谱模型微调 RAGFlow coze Dify Fastgpt Bisheng Qanything AI+汽车 AI+金融 AI+工业 AI+培训 AI+SaaS 提示词框架提示词技巧 AI+电商 AI面试数字员工 ChatBI 知识管理开源大模型智能营销智能硬件智能化改造 AI+医疗 MaxKB