1分钟带你了解大模型中的Token到底是啥？

引言

今天不少小伙伴在问什么是大模型中的token,像Deepseek、Chatgpt这样的大语言模型都有一个刀法精湛的小弟，叫做分词器。

当我们与大模型对话时，大模型接收文字，这是这位刀法精湛的小弟就会把文字切成很多个小块，这切出来的每一个小块就叫一个token。比如下面这句话，

唱、跳、Rap、篮球，如果你是分词器你会如何切分，应该切分为唱、跳、rap、篮球。在不同的大语言模型中各个小弟刀法不同，token可以为1个字、两个字或常见短语，标点符号甚至也能成为token。到这里可能还是有很多小伙伴不懂啥是Token以及为什么要有Token。

举个简单例子，我喜欢睡觉，如果一个字一个字的处理就需要有5个部分，如果将这句话划分为我、喜欢、睡觉，这3个常见且有意义的词，就只需要处理这3个部分之间的关系，大大提高了效率。
大模型就像做饭的厨师，分词器就像切菜的小工，而被切分的“食物”就是token，自然切的越合适，主厨做起来越方便且高效。

分词器究竟是怎么工作的，有一种方法是统计大量文字后发现某一个词经常出现，如“篮球”，就把“篮球”打包成一个token并赋予编号再丢入一个大的词汇表，等到下次再出现这个词时就可以直接识别出这个文字组合。通过大量的训练，形成庞大的token表。