1分钟带你了解大模型中的Token到底是啥?

引言

今天不少小伙伴在问什么是大模型中的token,像Deepseek、Chatgpt这样的大语言模型都有一个刀法精湛的小弟,叫做分词器。


当我们与大模型对话时,大模型接收文字,这是这位刀法精湛的小弟就会把文字切成很多个小块,这切出来的每一个小块就叫一个token。 比如下面这句话,

唱、跳、Rap、篮球,如果你是分词器你会如何切分,应该切分为唱、跳、rap、篮球。在不同的大语言模型中各个小弟刀法不同,token可以为1个字、两个字或常见短语,标点符号甚至也能成为token。到这里可能还是有很多小伙伴不懂啥是Token以及为什么要有Token。

举个简单例子,我喜欢睡觉,如果一个字一个字的处理就需要有5个部分,如果将这句话划分为我、喜欢、睡觉,这3个常见且有意义的词,就只需要处理这3个部分之间的关系,大大提高了效率。
大模型就像做饭的厨师,分词器就像切菜的小工,而被切分的“食物”就是token,自然切的越合适,主厨做起来越方便且高效。
 

分词器究竟是怎么工作的,有一种方法是统计大量文字后发现某一个词经常出现,如“篮球”,就把“篮球”打包成一个token并赋予编号再丢入一个大的词汇表,等到下次再出现这个词时就可以直接识别出这个文字组合。通过大量的训练,形成庞大的token表。