Callisto: Entropy based test generation and data quality assessment for Machine Learning Systems

简介:

论文标题

Callisto: Entropy based test generation and data quality assessment for Machine Learning Systems
Callisto：基于熵的测试生成和数据机器学习系统的质量评估

简介:

提出了一个从测试集中选择高质量的测试例子的工具Callisto
两种算法:
- 选择适当的用例进行反例生成(旋转,平移等等变换)
- 评价用例质量
两种算法都是基于熵的,即用softmax后得到的向量进行熵计算,比较简单

总之:CALLISTO是一个框架,使用熵来生成测试并最小化测试集

用例边界

我们在图1中说明了CALLISTO的测试生成方法的直觉。考虑变形变换M（例如，少量旋转图片）和输入A1，A2和A。基本方法是将M应用于所有引出的数据点大量的计算开销。 CALLISTO旨在发现诸如A之类的点，这些点将允许用户有选择地将变形关系应用于可能导致错误的输入。 CALLISTO将避开诸如A1和A2之类的点。

就是选择距离边界较近的点,熵大的就是容易接近边界的