NLP 的EDA数据增强技术

1. 同义词替换(SR: Synonyms Replace):不考虑stopwords,在句子中随机抽取n个词,然后从同义词词典中随机抽取同义词,并进行替换。

2. 随机插入(RI: Randomly Insert):不考虑stopwords,随机抽取一个词,然后在该词的同义词集合中随机选择一个,插入原句子中的随机位置。该过程可以重复n次。

3. 随机交换(RS: Randomly Swap):句子中,随机选择两个词,位置交换。该过程可以重复n次。

4. 随机删除(RD: Randomly Delete):句子中的每个词,以概率p随机删除。

博客:
1、https://zhuanlan.zhihu.com/p/63182132
2、中文语料的EDA数据增强工具 https://www.ctolib.com/zhanlaoban-eda_nlp_for_Chinese.html
3、让机器自动生成文本数据--NLP文本数据增强方法简述 https://zhuanlan.zhihu.com/p/75207641
4、https://blog.nowcoder.net/n/96200041c45340bea50356dff7e655d6

发布了447 篇原创文章 · 获赞 153 · 访问量 49万+

猜你喜欢

转载自blog.csdn.net/ningyanggege/article/details/104991184
NLP
今日推荐