【论文泛读20】基于迁移学习的日语情感分析研究

贴一下汇总贴:论文阅读记录

论文链接:《An Investigation of Transfer Learning-Based Sentiment Analysis in Japanese》

一、摘要

文本分类方法通常需要特定任务的模型体系结构和巨大的标记数据集。最近,由于基于文本的迁移学习技术的兴起,我们可以在无监督的情况下预先训练语言模型,并利用它们有效地执行下游任务。在这项工作中,我们关注日语,并展示了迁移学习技术在文本分类中的潜在应用。具体来说,我们对乐天产品评论和雅虎电影评论数据集进行了二分类和多分类情感分类。我们表明,基于迁移学习的方法比使用3倍的数据训练的特定任务模型表现更好。此外,这些方法对于在维基百科1/30中接受过培训的语言建模也能执行得很好。我们将我们预先训练好的模型和代码作为开放源代码发布。

二、结论

我们的工作表明了使用迁移学习技术处理日语情感分类的可能性。基于我们在Rakuten product review和Yahoo movie review数据集上的实验,我们为未来的日本研究者在情感分析任务中进行迁移学习得出以下结论:

  • 当任务是二值分类时,对BERT域的自适应可能不会产生很好的效果。对于所有其他情况,域适应的性能和域适应一样好,甚至更好。
  • ELMo和ULMFiT即使在使用语言模型的一小部分进行训练时也表现良好。
  • 在目标任务上对ELMo和BCN层进行fune调优可以提高性能。

本文贡献:

  • 在日本二元和五类数据集上对ELMo、ULMFiT和BERT进行了实验。
  • 我们做了几个消融研究,有助于理解迁移学习在日语情感分析中的有效性。
  • 我们发布了我们预先训练好的模型和代码

三、神经嵌入与分类模型

  • 词嵌入
    词嵌入被定义为一个词作为一个密集向量的表示。有许多神经网络实现,包括word2vec 和Glove ,它们使用单层嵌入,在各种NLP任务中实现了最先进的性能。然而,这些嵌入并不是上下文特定的:在短语“I washed my dish”和“I ate my dish”中,“dish”指的是不同的东西,但仍然由相同的嵌入来表示。

  • 更符合实际的词嵌入
    与固定向量嵌入不同,卷积使用机器翻译模型将每个单词嵌入到句子的上下文中。该模型包括一个双向LSTM编码器和一个单向注意LSTM解码器,仅编码器用于下游的特定任务模型。然而,由于平行语料库的可用性,预先训练受到限制。(例如English-French)
    ELMo (Embeddings from Language Model)是嵌入式语言模型的简称,它以一种无监督的方式利用了大量的单语数据,从而克服了这一问题。ELMo的核心基础是双向语言模型,它通过结合正向和逆向语言模型来学习预测目标词在句子中出现的概率。ELMo还要求下游任务使用特定于任务的模型。
    Howard和Ruder提出了一种单一模型架构ULMFiT,它既可以用于培训前的训练,也可以用于特定任务的微调。他们使用了新的技术,如判别式微调和倾斜三角形学习率来稳定微调。OpenAI通过引入GPT(一种多层变压器解码器)扩展了这一思想。ELMo使用前向和后向语言模型的浅层连接,而ULMFiT和OpenAI GPT是单向的。
    Devlin等人认为,这限制了预先训练的表现方式的能力,因为它不包含双向语境,这对单词级别的任务(如回答问题)至关重要。他们提出了一个基于变压器编码器的多层模型BERT,训练了掩码语言建模(MLM)和下一句预测(NSP)任务。MLM允许通过随机掩蔽每个句子中15%的单词来预测它们的双向训练,而NSP通过预测两个句子的顺序来帮助任务,如回答问题。

  • 文本分类
    针对英语文本分类,人们发明了很多模型,包括KimCNN、LSTM、Attention、RCNN等。然而,日本人并没有得到多少帮助。据我们所知,目前最先进的日语文本分类方法是使用浅层(上下文无关的)单词嵌入来进行文本分类。Sun等人提出了超级字符方法,通过将文本投影到图像中,将句子分类转化为图像分类。
    Zhang和LeCun对中/日/韩语(CJK)和英语的不同编码方式进行了广泛的研究,涵盖了14个数据集和473种不同的编码组合,包括单热、字符符号、嵌入以及线性、fasttext和CNN模型。
    本文研究了基于迁移学习的情感分析方法,与上面提到的日语情感分析模型类似。

低镜头学习(Low-shot learning)是指用少量的训练数据来喂养模型,与通常使用大量数据的做法相反。

猜你喜欢

转载自blog.csdn.net/qq_41485273/article/details/114277574
今日推荐