Lecture 15: Validation验证
15-1 模型选择问题
什么是好的模型?答:可以让Eout最小。
但这就面临着问题:我们不可能知道Eout的值。
那么该怎么选呢?也不可以visual去选。(如果高维呢)
选Ein最小的?答:不可以,过拟合情况;或者可能有bad generalization。
一种答案:选有最好的测试结果的模型。在已有数据中留下一小部分当做做完模型的测试集。
15-2 测试集
上述模型选择问题答案的图示:
用不同的模型H得到不同的Eout,再进行比较找最好的。
把所有data的gm和所有data减去validation资料的gm-相对比,有:
在验证集较小时,gm和gm-大致相同;
在验证集较大时,gm效果比gm-好。
15-3 leave-one-out 交叉验证
此种方法的示意图(分别是线性的和常数的):
此时在data size很大时,gm和gm-几乎是相同的。
15-4 V-Fold交叉验证
leave-one-out的缺点1:若1000个点,则要做1000次。
leave-one-out的一个简单方法:linear regression,此时有leave-one-out的公式解。
leave-one-out的缺点2:做binary问题(1/0)时稳定性太差。
所以实际中不常使用。
V-Fold在leave-one-out上的改进:
比如十折交叉验证时,轮流着拿九份训练,一份验证。