AI 的测试：模型的基准测试

移动开发 2023-09-17 04:19:46 阅读次数: 0

模型的基准测试

在评估一个模型的时候，仅通过ROUGE、BLEU SCORE评价模型还是太单薄了，并不能全面的反馈模型的能力。在相完整评估一个模型的能力的时候，最重要的是提供一套有效的评估模型。现在常见的模型的基准测试有 GLUE、SuperGLUE、HELM、MMLU等等。

自然语言处理能力的基准测试：GLUE和SuperGLUE

GLUE（General Language Understanding Evaluation，通用语言理解评估）是2018年有纽约大学、华盛顿大学等机构一起创建的自然语言任务的集合。GLUE包含了 9 项任务，分布如下：

CoLA（The Corpus of Linguistic Acceptability），该任务主要是评价一个句子的语法是否正确，是单句的文本二分类任务，该数据集是纽约大学发布的,语料来自语言理论的书籍和期刊。
SST（The Stanford Sentiment Treebank），斯坦福大学发布的一个情感分析数据集，主要是来自电影评论做的情感分类，SST 也是单句文本分类任务，其中 SST-2 是二分类、SST-5 是五分类，五分类在分类情感上区分的更加细致。
MRPC（Microsoft Research Paraphrase Corpus），是微软发布的数据集，语料来自于新闻中的句子，通过程序自动抽取句子然后经过人工标注句子在语义上的等从而判断相似性和释义性，也属于句子对的文本二分类任务。
STS-B（Semantic Textual Similarity Benchmark），语

猜你喜欢

转载自blog.csdn.net/chenlei_525/article/details/132433510

AI 的测试：模型的基准测试

AI Agent在情景猜谜场景下的AgentBench基准测试

AI Agent在家务场景下的AgentBench基准测试

AI 的测试：模型评估的常用指标

分布式协同AI基准测试项目Ianvs：工业场景提升5倍研发效率

ModaHub魔搭社区：AI Agent在网络购物场景下的AgentBench基准测试

ModaHub魔搭社区：AI Agent在知识图谱场景下的AgentBench基准测试

ModaHub魔搭社区：AI Agent在数据库场景下的AgentBench基准测试

【AI测试】人工智能测试——模型评价与项目实战

基准测试

Tencent AI 测试

AI测试SQL设计

AI测试——旅程的终点

AI测试的思考与探索

AI在测试中的体现

ModaHub魔搭社区：AI Agent在数字卡牌游戏场景下的AgentBench基准测试

清华团队领衔打造，首个AI agent系统性基准测试网站问世AgentBench.com.cn

DeepMind给AI模型做了个IQ测试，结果是这样的

【AI测试】AI测肤算法的稳定性测试

软件测试中的AI——运用AI编写测试用例

3、AI的道德性测试

AI项目一：mediapipe测试

AI赋能测试_API测试

PromptBench:大型语言模型的对抗性基准测试

18、MOABB：BCI创新模型基准测试的群虫之心

MySQL基准测试

基准测试--->sysbench

sysbench 基准测试

sysbench基准测试

Java Benchmark 基准测试

今日推荐

openKylin 社区生态委员会第六次会议圆满召开

阿里云正式发布通义千问 2.5

Python 3.13 发布首个 Beta：实验性自由线程模式和 JIT、改进交互式解释器

Stack Overflow 拿我的代码去训练 AI 大模型，还封了我的账号

Pop!_OS 的 COSMIC 桌面完成 App Store 上架工作

报告：Django 仍然是 74% 开发者的首选

《2024 年一季度互联网投融资运行情况》研究报告

15 年前上了“FFmpeg 耻辱柱”，今天他还得谢谢咱——腾讯QQPlayer一雪前耻？

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

GCC 14.1 发布

面壁智能发布 Eurux-8x22B 开源大模型 —— 堪称「理科状元」

开源日报 | 谷歌扶持鸿蒙上位；开源Rabbit R1；Docker加持的安卓手机；微软的焦虑和野心；海尔电器把开放平台关了

周排行

计算机组成与设计（七）—— 除法器

Integer Approximation(分治+枚举)

大话数据库索引

windows10系统JDK的配置及下载地址

mysql实现秒值转换中原六仔平台搭建

Codeforces Round #556 (Div. 1)

百练1064 网线主管

Codeforces 995F Cowmpany Cowmpensation

子集生成之增量构造法，位向量法，二进制法

ERROR: cmd.exe failed with args /c "/APK\gradle\rungradle.bat...

每日归档

更多

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)

2024-05-03(19)

2024-05-02(0)

2024-05-01(4)