实验观察的三个层次:
- 顶层,如测试精度。可以通过最终结果来观察。相当于系统测试。
- 中层,如:把数据分成几块,分别计算:
a) 训练集中的精度、召回率等,知道模型的拟合能力,这是一个基本保障。如果这个效果不好,就表示数据质量不好,无法保证内部的一致性;
b) 用一块训练,另一块测试,获取精度、召回率等。如果这个不好,就表示分布不同;
c) 用 k - 1 块训练,另一块测试,获取精度、召回率等。如果这个不好,就表示这一块与其它的分布不同;
d) 生成决策树等具有可读性的模型,比较不同数据块获得的模型;
相当于集成测试。 - 底层,对单个的样例分类。可以通过跟踪调拭来观察。保证基础代码的正确,相当于单元测试。
顶层和底层比较容易想到,但要进行具体问题的定位,中层更为重要。