NLP中的数据增强 - 代码天地

NLP中的数据增强

其他 2019-11-25 19:34:12 阅读次数: 0

相关方法合集见：https://github.com/quincyliang/nlp-data-augmentation

较为简单的数据增强的方法见论文：https://arxiv.org/pdf/1901.11196.pdf

论文中所使用的方法如下：

1. 同义词替换（SR: Synonyms Replace）：不考虑stopwords，在句子中随机抽取n个词，然后从同义词词典中随机抽取同义词，并进行替换。（同义词其词向量可能也更加接近，在使用词向量的模型中不一定有用）

2. 随机插入(RI: Randomly Insert)：不考虑stopwords，随机抽取一个词，然后在该词的同义词集合中随机选择一个，插入原句子中的随机位置。该过程可以重复n次。

3. 随机交换(RS: Randomly Swap)：句子中，随机选择两个词，位置交换。该过程可以重复n次。

4. 随机删除(RD: Randomly Delete)：句子中的每个词，以概率p随机删除。（类似于神经网络中的dropout）

第一列是训练集的大小，第三列是每个句子生成的新句子数，第二列是每一条语料中改动的词所占的比例。

相关实现见：https://github.com/zhanlaoban/eda_nlp_for_Chinese

还有些如打乱句子的顺序，随机进行Mask，相比于直接复制能够加入一些噪声，以防止过拟合。

还有些通过神经网络进行数据增强的方法，但是代价相对较高，同时效果也不一定会好。

相关讨论见：https://www.zhihu.com/question/305256736?sort=created

不同的数据增强方式不能确切的说谁强谁弱，对于NLP任务而言，一切从数据出发，需要结合具体任务进行检验。

猜你喜欢

转载自www.cnblogs.com/dyl222/p/11929815.html

NLP中的数据增强

NLP中的数据增强方法

【笔记】NLP 数据增强

nlp中的数据增强之 google-uda

NLP 的EDA数据增强技术

NLP文本数据增强热门技术

数据处理|NLP数据增强方法整理（持续更新）

NLP数据增强方法总结：EDA、BT、MixMatch、UDA

15种NLP数据增强方法总结与对比

NLP数据增强包，一键中文数据增强，pip install nlpcda

深度学习中的数据增强

图像中的数据增强及变换

使用 spaCy 增强 NLP 管道

NLP中基于Bert的数据预处理

深度学习中的数据增强（data augmentation）

语音识别中的数据增强技术

深度学习中的数据增强技术（二）

深度学习中的数据增强方法

计算机视觉中的数据增强

深度学习中的数据增强技术：Augmentation

语义分割中的数据增强方法

深度学习中的数据增强技术

Kaldi中语音数据增强方法

深度学习中的数据增强的方法调研

深度学习中的数据增强（上）

深度学习中的各种数据增强

数据增强

PW Live直播 | 清华大学NLP组秦禹嘉：基于自然语言解释的数据增强

睿智的目标检测-番外篇——数据增强在目标检测中的应用（数据增强代码的参数解读）

说话人识别中的数据预处理和数据增强

今日推荐

基于大语言模型的开源知识库问答系统 MaxKB GitHub Star 数量突破 5,000 个！

美国拟限制 AI 大模型出口中国和俄罗斯

苹果将与 OpenAI 达成协议，将 ChatGPT 应用于 iPhone

openKylin 社区生态委员会第六次会议圆满召开

阿里云正式发布通义千问 2.5

Python 3.13 发布首个 Beta：实验性自由线程模式和 JIT、改进交互式解释器

Stack Overflow 拿我的代码去训练 AI 大模型，还封了我的账号

Pop!_OS 的 COSMIC 桌面完成 App Store 上架工作

报告：Django 仍然是 74% 开发者的首选

《2024 年一季度互联网投融资运行情况》研究报告

15 年前上了“FFmpeg 耻辱柱”，今天他还得谢谢咱——腾讯QQPlayer一雪前耻？

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

周排行

BPM为企业带来的实际利益

好程序员web前端分享css常用属性缩写

Java文件下载（excel）

css样式的动态添加及显示和隐藏等零碎用法

axios全局配置以及拦截器

使用Logstash来实时同步MySQL和log日志数据到ES

C++获取当前时间（年月日、时分秒、毫秒）

Odoo产品分析 (四) -- 工具板块(11) -- 网站即时聊天(1)

Java环境配置正确，但是java、javac、java -version均返回“不是内部或外部命令，也不是可运行的程序或批处理文件”？

01 官网下载各种CentOS教程（超详细版）

每日归档

更多

2024-05-14(0)

2024-05-13(18)

2024-05-12(0)

2024-05-11(38)

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)