BPE算法之我见

BPE算法本质是基于合并的,而不是基于切分的,理解这一点很重要。

在BPE整个迭代的过程中,是基于“词表”的,但是最后要生成的是“子词表”,拿来用的也是“子词表”。

拿论文里的例子来说,最开始词表长这样:

l o w < 5
l o w e r < 2 
w i d e s t < 6
n e w e s t < 3

如果你不迭代,直接基于这个词表去生成子词表,那生成的子词表就是二十六个字母:

l
o
w
e
s
t
r
n
i
d
<

然后进行五次合并操作之后,词表会变成这样:

low < 5
low e r < 5
w i d est< 6
n e w est< 3

基于这个词表生成的子词表长这样:

est<
low
w
e
r
n
i
d
<

如上,注意按照长度排列了一下,然后用这个子词表去切分输入文本。这里说是切分,实际上还是合并。比如来了一个单词:

扫描二维码关注公众号,回复: 12464238 查看本文章

biggest

我还是先把它切成字符:

b i g g e s t

然后从子词表里找,发现 est< 能合起来,那就把 est< 合起来。然后发现别的合不起来了,就按照这个结果切分了:

b@@ i@@ g@@ g@@ est

感觉查到的相关资料都没太讲明白。

猜你喜欢

转载自blog.csdn.net/bonjourdeutsch/article/details/106080700