[文献阅读]—Reusing a Pretrained Language Model on Languages with Limited Corpora for Unsupervised NMT

前言

在这里插入图片描述

论文地址:https://aclanthology.org/2020.emnlp-main.214.pdf
代码地址:https://github.com/alexandra-chron/relm_unmt

前人工作&存在问题

对于高单语资源(HMR)和低单语资源(LMR)之间的UNMT,直接在共享词表上做预训练初始化效果不好。

本文贡献

通过先在HMR上预训练,再在LMR+HMR上"fine-tune"的方式,完成UNMT的初始化。

具体方法

第一步:在HMR上预训练LM

第二步:在HMR+LMR上BPE分词,得到的LMR词表加入到总词表中,在LMR+HMR上finetune LM,然后做UNMT

具体实验

UNMT

XLM差原因是:在HMR+LMR上进行LM预训练,还没有处理完HMR,就在LMR上过拟合了
在这里插入图片描述

图1 UNMT

NMT

200K的parallel data使得XLM和RE-LM差不多,RE-LM的增益仅体现在低资源情况下
在这里插入图片描述

图2 NMT

在HMR预训练之后,是在LMR还是LMR+HMR上finetune好?

扫描二维码关注公众号,回复: 13403518 查看本文章

RE-LM:finetune whole model on LMR带来灾难性遗忘,特别在不相似的语言对上;
adapters RE-LM:finetune embedding+adapter on LMR既保留了HMR的信息,又关注了LMR,效果更好,特别对于有部分词汇重叠的En-Sq(?);
在这里插入图片描述

图3 finetune方式

LMR的词表加入程度

BPE合并操作越多,新增LMR的词汇越多,UNMT性能越高

在这里插入图片描述

图4 LMR的词表加入程度对UNMT的影响

在这里插入图片描述

图5 LMR的词表加入程度

疑问

  • En用latin字母表,Mk用Cyrillic字母表

猜你喜欢

转载自blog.csdn.net/jokerxsy/article/details/121549085
今日推荐