摘要

主题：Aspect term extraction
- 从评论文本中提取aspect term作为情感分析的opinion target
存在的问题：缺乏大量有效的标注数据；而现有的数据增广方式可能会改变aspect words和aspect label
本工作：提出了一种新的数据增广方式：看作一个condition generation task
- 在生成句子的时候同时能保留original opinion targets and labels.
具体：使用了masked seq2seq的方法

引言

Aspect term extraction: 识别并提取用户表达情感的方面；一般被建模为序列标注任务。最后需要同时用到label sequence和sentence来训练ATE模型
现在增广方式存在的问题：1.生成的句子的label sequence被改变了，如图中句子B；2.尽管原始句子的aspect word被保留了，但在新句子中不再是aspect word，如图中句子C
总结起来难点在于：生成句子的同时对齐原始的label sequence，同时能够保留原始的opinion target不改变
现有的工作：基于单词替换的策略或者用语言模型来预测单词的方式无法生成多样的句子，而直觉上来看，增加句子的多样性明显有益于训练ATE模型
本文的工作：mask掉连续的tokens，然后将mask sentence和label sequence作为输入去重建这些被mask掉的fragment
- 作者认为相比于替换单词，重建这些fragment能够增加多样性
- 重建过程保持了opinion target不变，能够使生成更加可控
- Our augmentation method has a similar training objective as MASS, and includes a label-aware module to constrain the generation process.

输入句子序列和label序列，生成label序列和aspect term一致的新句子