BPE算法之我见 - 代码天地

BPE算法之我见

其他 2021-02-09 08:23:17 阅读次数: 0

BPE算法本质是基于合并的，而不是基于切分的，理解这一点很重要。

在BPE整个迭代的过程中，是基于“词表”的，但是最后要生成的是“子词表”，拿来用的也是“子词表”。

拿论文里的例子来说，最开始词表长这样：

l o w < 5
l o w e r < 2
w i d e s t < 6
n e w e s t < 3

如果你不迭代，直接基于这个词表去生成子词表，那生成的子词表就是二十六个字母：

l
o
w
e
s
t
r
n
i
d
<

然后进行五次合并操作之后，词表会变成这样：

low < 5
low e r < 5
w i d est< 6
n e w est< 3

基于这个词表生成的子词表长这样：

est<
low
w
e
r
n
i
d
<

如上，注意按照长度排列了一下，然后用这个子词表去切分输入文本。这里说是切分，实际上还是合并。比如来了一个单词：

扫描二维码关注公众号，回复： 12464238 查看本文章

biggest

我还是先把它切成字符：

b i g g e s t

然后从子词表里找，发现 est< 能合起来，那就把 est< 合起来。然后发现别的合不起来了，就按照这个结果切分了：

b@@ i@@ g@@ g@@ est

感觉查到的相关资料都没太讲明白。

猜你喜欢

转载自blog.csdn.net/bonjourdeutsch/article/details/106080700

BPE算法之我见

KMP算法之我见

冒泡算法之我见！

ACRANSAC之我见

重构之我见

webgis 之我见

CMM之我见

浮动之我见

FME之我见

前端之我见

DevOps之我见

产品之我见

智能之我见

开源之我见

python机器学习之我见：k-近邻算法

Springboot开发之我见

软件测试之我见

Flyweight模式之我见

哈希表之我见

云计算之我见

java同步之我见

java 异常之我见

Session Cookie 之我见

项目管理之我见

分层思想之我见

Drupal 学习之我见

observer pattern 之我见

设计模式之我见

scala的trait之我见

trust zone之我见

今日推荐

Apache Doris 2.0.10 版本正式发布！

开源日报 | 大模型开战；大模型独角兽被曝卖身；周鸿祎建议谷歌开源所有产品；最大开源AI社区提供1000万美元共享GPU

开源日报 | Chrome内置Gemini的意义不在于Gemini；中国AI追随之路的五大误区；ECharts创始人“下海”养鱼；谷歌I/O开发者大会什么都有，只是没有惊喜

微软回应中国区AI团队“打包赴美”传闻

基于大语言模型的开源知识库问答系统 MaxKB GitHub Star 数量突破 5,000 个！

美国拟限制 AI 大模型出口中国和俄罗斯

苹果将与 OpenAI 达成协议，将 ChatGPT 应用于 iPhone

周排行

阿里云短信服务平台注册

Windows下的字符串处理(1)

sqoop: mysql导入数据到hdfs, hive, hbase

commons.lang中常用的工具类

离线安装PostgreSQL11.6

使用PyTorch简单实现卷积神经网络模型

一文彻底搞定谱聚类

一道面试题引发的血案

One Chat for Mac(聊天工具)

TCP/IP的底层队列是如何实现的？

每日归档

更多

2024-05-17(34)

2024-05-16(6)

2024-05-15(24)

2024-05-14(0)

2024-05-13(18)

2024-05-12(0)

2024-05-11(38)

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)