本文是LLM系列文章,针对《Empowering Large Language Models for Textual Data Augmentation》的翻译。
摘要
凭借理解和执行自然语言指令的能力,大型语言模型 (LLM) 有可能成为文本数据增强的强大工具。但是,增强数据的质量在很大程度上取决于提供的增强指令,并且有效性可能会因不同的下游任务而波动。虽然手动制作和选择指令可以提供一些改进,但由于下游任务的多样性,这种方法在实践中面临可扩展性和一致性问题。在这项工作中,我们通过提出一种新的解决方案来解决这些限制,该解决方案可以自动生成大量增强指令并选择最合适的任务知情指令,从而使 LLM 能够为不同的下游任务创建高质量的增强数据。从实证上讲,与非 LLM 和基于 LLM 的数据增强方法相比,所提出的方法始终生成质量更好的增强数据,从而在来自广泛应用领域的 26 个小样本学习任务上获得最佳性能。
1 引言
2 相关工作
3 前言
4 提出的方法-自我 LLMDA
5 实验
6 结论
在这项工作中,我们介绍了