AI 的测试:模型的基准测试

模型的基准测试

在评估一个模型的时候,仅通过ROUGE、BLEU SCORE评价模型还是太单薄了,并不能全面的反馈模型的能力。在相完整评估一个模型的能力的时候,最重要的是提供一套有效的评估模型。现在常见的模型的基准测试有 GLUE、SuperGLUE、HELM、MMLU等等。

自然语言处理能力的基准测试:GLUE和SuperGLUE

GLUE(General Language Understanding Evaluation,通用语言理解评估)是2018年有纽约大学、华盛顿大学等机构一起创建的自然语言任务的集合。GLUE包含了 9 项任务,分布如下:

  • CoLA(The Corpus of Linguistic Acceptability),该任务主要是评价一个句子的语法是否正确,是单句的文本二分类任务,该数据集是纽约大学发布的,语料来自语言理论的书籍和期刊。
  • SST(The Stanford Sentiment Treebank),斯坦福大学发布的一个情感分析数据集,主要是来自电影评论做的情感分类,SST 也是单句文本分类任务,其中 SST-2 是二分类、SST-5 是五分类,五分类在分类情感上区分的更加细致。
  • MRPC(Microsoft Research Paraphrase Corpus),是微软发布的数据集,语料来自于新闻中的句子,通过程序自动抽取句子然后经过人工标注句子在语义上的等从而判断相似性和释义性,也属于句子对的文本二分类任务。
  • STS-B(Semantic Textual Similarity Benchmark),语

猜你喜欢

转载自blog.csdn.net/chenlei_525/article/details/132433510
今日推荐