GLUE 数据下载与提交

1 下载

GLUE 任务分为主要的任务(CoLA, MNLI, MRPC, QNLI, QQP, RTE, SST-2, STS-B, WNLI),以及附加的任务(Diagnostic,下面简称为 AX)。其中只有 STS-B回归任务,其余的全为分类任务。还需说明的是,MNLI 数据集的验证集和测试集包含两部分:matched (简称为 MNLI-m)mismatched (简称为 MNLI-mm),可以当成两个任务看待。并且对于所有的分类任务MNLI-mMNLI-mmAX三分类任务,其余都为二分类任务。

关于主任务,全部可以在 https://gluebenchmark.com/tasks 网站上下载,其中 MRPC 任务下载下来是个 msi 文件,需要安装,并且只有训练集和测试集,需要对训练集划分才能获得验证集。而 AX 任务的测试集下载链接有两个,如果是单纯的无标签的测试集,可以在 https://gluebenchmark.com/tasks 该网站上下载,带标签的测试集链接为 https://www.dropbox.com/s/ju7d95ifb072q9f/diagnostic-full.tsv?dl=1AX 任务的训练集与测试集为 MultiNLI 1.0 数据集,链接为 https://cims.nyu.edu/~sbowman/multinli/multinli_1.0.zip

不同的任务有不同的评价指标,如下图所示。

  • CoLAAX 评价指标为 MCC,训练时可以调用:
from sklearn.metrics import matthews_corrcoef
  • SST-2MNLI-mMNLI-mmQNLIRTEWNLI 评价指标为 ACC,可以调用:
from sklearn.metrics import accuracy_score
  • MRPCQQP 评价指标为 macro-F1 (因为 micro-F1 = ACC) 和 ACC,可以调用:
from sklearn.metrics import accuracy_score, f1_score
  • STS-B 评价指标为 Pearsonr,可以调用:
from scipy.stats import pearsonr

GLUE tasks

2. 提交

提交时需要填写一些信息,相应的信息的说明在 FAQ 中查看到 https://gluebenchmark.com/faq,或者直接提交的时候鼠标放在每个 input 框也可以看到。

其中需要注意的为要提交的数据的格式。如果想看英语原版的同学,可以直接在 FAQ 查看第一个问题 https://gluebenchmark.com/faq

  1. 提交的数据必须在一个文件夹内,并将这个文件夹压缩为一个 zip 文件。假设我将数据放在了名为 glue_results 的文件夹中,那么我就要提交这个 glue_results.zip 文件。注:文件夹中不要再包含文件夹。
  2. 文件夹中的数据必须为 tsv 文件,并且名字对应任务,即:CoLA.tsvMNLI-m.tsvMNLI-mm.tsvMRPC.tsvQNLI.tsvQQP.tsvRTE.tsvSST-2.tsvSTS-B.tsvWNLI.tsvAX.tsv
  3. tsv 文件中只包含两列,第一列为 IDs,第二列为 labels,需要表头,并且以 \t 作为分隔符。并且需要注意的是,对于 AXMNLI-mMNLI-mmQNLIRTE 这5个任务,labels 这一列必须为标签名字。比如对于 MNLI 数据集,labels 要为 [“contradiction”, “entailment”, “neutral”],所以模型输出后这里还要做个映射。
  4. zip 中必须包含这 11 个任务,否则提交不能完成。
  5. 如果没有选择 public,想要查看每个任务的具体得分的话,可以在 profile 页面找到提交成功的名字,然后点击名字即可查看到细节。

猜你喜欢

转载自blog.csdn.net/qq_35357274/article/details/125541230