想到啥写啥,主要记录一周内的工作......
1.prompt在中文分类 few-shot 场景的尝试
.........代码没有跑通,后面补上
2.Fantastically Ordered Prompts and Where to Find Them: Overcoming Few-Shot Prompt Order Sensitivity
prompt的顺序对对 in-context learning 的表现有很大影响,文章中提出了一种生成更有效prompt顺序的方法,在11个任务上相对提升13%。
方法:基于“大多数使模型失效的prompt的顺序,会让模型预测的标签分布与真实分布有较大偏差”这一观察,根据少量样本,生成无标签数据。以自动生成的无标注数据作为验证集,以标签分布的熵值作为验证指标,挑选最优prompt顺序。
第一步:生成用来验证的无标注数据集,以每个prompt的顺序作为前缀,输入到预训练语言模型中,让模型解码出一系列的同分布数据。
第二步:确定评价指标来评估prompt的展示顺序的优劣 ,作者设计了两种筛选指标,一种指标为全局熵指标(GlobalE),另一种指标为局部熵指标(LocalE)。
3.SPoT: Better Frozen Model Adaptation through Soft Prompt Transfer
这篇文章研究了如何使用迁移学习优化soft prompt tuning方法,聚集于小模型的Soft Prompt学习,预训练模型比较小时,仍可以达到与Model-tuning相近的性能,显著超越Prompt-tuning。
方法:在pretraining LM和target task的prompt tuning之间,加了一个prompt pre-training。
先在一个或多个源任务上学习自己的Prompt,然后将其作为目标任务的Prompt初始化。基于Prompt Tuning的Prompt架构,仅在输入前拼上Soft Prompt,然后基于各种尺度的T5,训练微调时仅学习Soft Prompt。论文尝试了几组源任务,发现以GLUE作为源任务,迁移到GLUE和SuperGLUE上效果最佳。
4.A Good Prompt Is Worth Millions of Parameters: Low-resource Prompt-based Learning for Vision-Language Models
文章针对基于prompt解决小样本场景下的3个任务:图文问答、看图说话、类目预测,研究了3个问题:prompt设计对zero/few shot的图文任务效果的影响、训练样本足够多的情况下prompt设计对效果的影响、不同预训练任务对zero/few shot的图文任务效果的影响。
提出了FEWVIM小样本图文学习模型架构
FEWVIM整体框架采用了Encoder-Decoder的架构,使用Fast-RCNN进行图像检测,生成图像对应的region表示,然后将图像表示和文本表示拼接到一起,输入到Transformer Encoder中。
然后进预训练,在预训练结束后,基于prompt将预训练图文模型应用到下游任务中。将针对VQA和Captioning构造的prompt模板输入到Encoder中,在Decoder中预测后续文本作为回答。
在实验结果中发现,prompt设计对zero/few shot效果影响较大,尤其是zero-shot的效果更容易受到prompt设计的影响。在预训练任务方面,MLM任务对VQA任务更好,PrefixLM对Captioning任务更好。这是由于MLM任务和基于prompt的VQA任务类似,都是预测mask span;而PrefixLM和Captioning更相似,都是根据前文进行生成。因此预训练任务和下游任务越相似,效果就越好。
5.PTR: Prompt Tuning with Rules fo Text Classification
文章提出一种方法(prompt tuning with rules,PTR),手动设计一些基本的sub-prompt,并使用逻辑规则将这些sub-prompt构建为与任务相关的prompt。
核心要点:
1.template的构建:人工构建sub-prompt,再利用规则逻辑对特定任务生成相应的template;
2.将Prompt应用在关系抽取任务上
方法:
1.定义条件函数,用于判断输入是否满足条件
2.使用逻辑规则(logic rules)将分类任务转化为一系列条件函数的计算
3.针对每个条件函数,手动构建sub-prompt、模板和label word。
4.根据具体的任务,将sub-prompt集合起来,映射到label word上的分类,每个位置将会得到相应概率。