我要投稿

大神Karpathy强推，分词领域必读：自动钓鱼让大模型“发疯”的token，来自Transformer作者创业公司

发布日期：2024-05-13 22:08:31 浏览次数： 1998 作者：量子位

鱼羊发自凹非寺
量子位 | 公众号 QbitAI

关于大模型分词（tokenization），大神Karpathy刚刚推荐了一篇必读新论文。

主题是：自动检测大模型中那些会导致“故障”的token。

简单来说，由于大模型tokenizer的创建和模型训练是分开的，可能导致某些token在训练中很少、甚至完全没出现过。这些“训练不足”（under-trained）的token会导致模型产生异常输出。

最经典的例子，就是SolidGoldMagikarp——

这个单词一度让ChatGPT“胡言乱语”。只要prompt里包含这个词，ChatGPT就开始文不对题，生成一些混乱的输出：

现在，来自Cohere的研究人员针对这个问题，提出检测“故障”token的有效方法，他们还发现：在多个主流开源大语言模型上，包括Llama系列、Mistral系列在内，训练不足的token都在不同程度上普遍存在。

p.s. Cohere是Transformer最年轻作者Aidan Gomez创办的公司，此前推出了Command R系列开源大模型。去年6月，该公司估值达到了22亿美元。

自动检测LLM中训练不足的token

研究人员提出的方法主要包括三个步骤。

首先，通过检查tokenizer词汇表并观察其编码/解码行为，来分析tokenizer，找出其中特殊类别的token，比如不完整的UTF-8序列等。

然后，根据模型架构计算识别指标，找出嵌入向量异常的token，列入“训练不足”候选名单。

举个例子，对于tied embedding模型，利用一组已知的未使用的embedding，通过主成分分析去除unembedding矩阵中的常数成分。

接着计算其余token和这些未使用embedding的余弦距离，作为“训练不足”指标。

而对于non-tied embedding的模型，可以直接采用embedding向量的L2范数来检测。

最后，通过特定prompt来进行验证，看看候选token们是否确实超出了训练数据的分布，会引发异常输出。

将该方法应用于多个主流的开源大语言模型后，研究人员发现，训练不足能让大模型“发疯”的token在这些大模型上普遍存在，他们一口气就挖出了数千个。

常见类型包括：

单字节token，尤其是UTF-8标准中未使用的字节，如0xF5-0xFF；
字节对编码（Byte-Pair Encoding，BPE）过程中，出现的一些未充分训练的中间token。
一些特殊字符，如<pad>、<unk>等。

研究人员还发现，词汇表较大的模型，“训练不足”token的数量也会明显增多。

因为大词汇表意味着更稀疏的token分布和更细粒度的token切分，这必然会导致更多低频token和无意义的token残片，增加“训练不足”token的比例。同时，大词汇表也给模型训练带来了更大的优化难度。

值得注意的是，论文提到，基于相同tokenizer的模型表现相似，而不同的tokenizer实现、配置、训练数据，会导致不同模型间“训练不足”token的明显差异。

论文认为，优化词汇表结构和tokenizer算法，是解决token训练不足问题的关键。

他们也提出了一些建议：

确保tokenizer训练数据、模型训练数据和模型推理中输入数据的预处理完全相同。
确保模型训练数据和tokenizer对齐，尤其是在从头训练新的基础模型时。
对于单字节token，要么词汇表包含所有256个字符且不允许重复，要么排除13个UTF-8中不出现的字符（0xC0/0xC1，0xF5-0xFF）。
训练tokenizer后，通过对词汇表进行编码和解码来检查无法访问的token，以确保正确处理手动添加的token。
在Hugging Face上发表tokenizer的“快速”和“慢速”版本时，确保它们输出相同。
训练基础模型时，在小型测试中检查训练不足的token，重新考虑分词方法和数据。在不同语料库上运行测试，也可以发现导致主训练数据中“故障”输入的预处理错误。

论文地址：
https://arxiv.org/abs/2405.05417

— 完 —

53AI，企业落地大模型首选服务商

产品：场景落地咨询+大模型应用平台+行业解决方案

承诺：免费场景POC验证，效果验证后签署服务协议。零风险落地应用大模型，已交付160+中大型企业

相关资讯

2024-07-10

科研助力神器：Scholar GPT，百倍提升你的研究效率！

2024-07-09

Doc2X：一款功能超级强大的文档解析与转换工具

2024-07-06

我对多智能体协作过程自动演化架构设计

2024-07-06

可穿戴AI，底层逻辑的变化

2024-07-06

一文彻底搞懂Transformer - Word Embedding（词嵌入）

2024-07-06

AI动态 | 腾讯元宝AI搜索能力升级：深度搜索模式上线

2024-07-06

智能手表 + AI ，都已经这么智能了？？

2024-07-06

死磕10万卡GPU算力集群，腾讯星脉网络2.0有什么秘密武器？

了解更多

160+中大型企业正在使用53AI

立即咨询预约演示

把握AI发展的机遇，共同探索、共同进步

2025-01-22

如何打造基于GenAI的员工服务机器人

2025-01-22

热点资讯

爆肝50小时，DeepSeek使用技巧，你收藏这一篇就够了！

2025-02-01

Ollama 本地运行大模型(LLM)完全指南

2024-07-25

我把最近爆火的 DeepSeek-V3 接到了 Cursor！

2025-01-01

一文读懂DeepSeek-R1本地部署配置要求（建议收藏）

2025-02-04

本地部署大模型？看这篇就够了，Ollama 部署和实战

2024-08-13

更改ollama模型存储路径

2024-04-25

16个具有“联网搜索”功能的AI：总有一个适合你！

2024-06-13

Cursor 一个真正让程序员产生危机感的 AI 编程工具

2024-08-21

OpenAI o1与GPT4o的对比分析

2024-09-23

全民AI时代：手把手教你用Ollama & AnythingLLM搭建AI知识库，无需编程，跟着做就行！

2024-04-26

大家都在问

杨植麟再掀 AI 风暴！Kimi-Audio 如何让机器听懂人类 “弦外之音”？

2025-04-28

一文了解：为什么大模型 Agent框架（A2A）采用 JSON-RPC 2.0？

2025-04-28

演讲实录：中小企业如何快速构建AI应用？

2025-04-27

从命令到共创：AI提示词如何释放你的创造力？

2025-04-27

一文了解：大模型 Agent 开发框架有哪些？它们的区别是什么？

2025-04-27

为什么新手比专家更想做垂直领域SFT微调？

2025-04-27

伪装成浏览器的 AI Agent，好用吗？

2025-04-26

RAG比之MCP或长上下文LLM，要没落了吗？

2025-04-26

热门标签

内容创作大模型技术个人提效 langchain llamaindex 多模态技术 RAG技术智能客服知识图谱模型微调 RAGFlow coze Dify Fastgpt Bisheng Qanything AI+汽车 AI+金融 AI+工业 AI+培训 AI+SaaS 提示词框架提示词技巧 AI+电商 AI面试数字员工 ChatBI 知识管理开源大模型智能营销智能硬件智能化改造 AI+医疗 MaxKB

大神Karpathy强推，分词领域必读：自动钓鱼让大模型“发疯”的token，来自Transformer作者创业公司

鱼羊 发自 凹非寺量子位 | 公众号 QbitAI

自动检测LLM中训练不足的token

鱼羊发自凹非寺
量子位 | 公众号 QbitAI