LLM应用实战2-理解Tokens

基本定义

Tokens 是大型语言模型（LLM）处理文本或代码的最小语义单元，可包含以下形式：

字符（如英文字母 a 或中文字符北）
单词（如英文单词 apple 或中文词汇北京）
子单词（如将 unhappy 拆分为 un 和 happy）
文本/代码片段（如 def find_max() 或 HTML 标签
）
特定 Token 的表达形式和粒度由 分词算法（Tokenization）决定（例如 BPE、WordPiece、Unigram Language Model）。

在这里插入图片描述
以 BPE 为例：

来源于: https://platform.openai.com/tokenizer

在这里插入图片描述
可以看到：总共6个字符，被划分成了4个Tokens

在这里插入图片描述
这分别是这4个Token的ID

在这里插入图片描述
可以看到： “欢迎”和“你！”的ID在同一个模型下是保持一致的。

在这里插入图片描述
这是英文的分词，相比中文来说，更加直观。

在这里插入图片描述

可以看到，不同版本的LLM分词方式不同，这里出现了乱码，为什么会有乱码并且把一个中文词语转换成了多个Token？
因为大语言模型（LLMs）在处理文本时，若输入包含特殊 Unicode 字符（尤其是多字节字符或组合字符），可能导致

某些 Unicode 字符在 UTF-8 编码中由多个字节表示，而 Tokenization 算法（如 BPE）可能按字节对生成子词，导致单个字符对应多个 Tokens。
示例：字符 ç（Unicode: U+00E7）在 UTF-8 编码为 0xC3 0xA7，可能被拆分为两个 Tokens。