西瓜书第一章 假设空间和版本空间

一开始看到这一节的时候被搞晕了,要搞清楚这个问题,必须要理解假设空间和版本空间的意义。

对于一个瓜是不是好瓜,要有一个判定条件,这个判定条件就是一个假设。比如说,我们的假设是:色泽青绿 、根蒂蜷缩 、敲声浊响的瓜 是好瓜。或者我们也可以假设 :只要色泽青绿 、根蒂蜷缩的瓜,无论敲声随便是什么声音(书中用通配符*表示),都是好瓜。极端情况下,我们也可以假设世界上是没有好瓜的,不管是什么颜色什么根蒂什么敲声,都是坏瓜(书中用空集表示)。

上面只是举了几种可能的假设的例子。这样,我们数一下一共可以做出几种假设。由于色泽、根蒂、敲声各有4种可能取值(别忘记随便取值的情况),我们根据这些取值的排列组合,一共可以做出4*4*4=64种假设,再加上“没有好瓜”的这种极端假设,共有65种假设。这65种假设构成的集合,叫做假设空间。

这时,我们有了一些训练集(西瓜书表1.1所示),我们对“什么是好瓜、什么是坏瓜”有了一定的了解。这样以来,通过这些有限的训练集,我们就知道上面这65种假设中,有些有错误的,有些假设可能正确。我们要做的,是排除错误的假设。也就是说,假设版本要和训练集“匹配”。

下面举例说明“匹配”的意义。比如我们上面的假设,色泽青绿 、根蒂蜷缩 、敲声浊响的瓜 是好瓜。这句话本身并没有问题,但是它作为一种假设,需要被剔除。因为当我们做出这种假设时,意味着色泽乌黑 、根蒂蜷缩 、敲声浊响的瓜不是好瓜,这和表中第二个训练样本是矛盾的,训练表明色泽乌黑 、根蒂蜷缩 、敲声浊响的瓜也是好瓜。再比如说,色泽=*,根蒂=*,敲声是浊响的瓜是好瓜。如果我们做出这种假设,对于表中的4种训练样本,在这种假设下都能做出正确的判断。对于色泽是浅白,根蒂蜷缩,敲声浊响的瓜,根据这种假设,我们也能做出是好瓜的判断,只是这种判断可能正确可能错误。因此,要想判断的正确,就要全面、大量的训练,以排除更多假设空间中的错误假设。错误假设越少,剩下的假设越少,就越有可能是正确假设,我们判断的结果的正确概率越大。按照这种思路排除错误假设,剩下的那些假设就构成了版本空间。这个空间随训练集的版本不同,会变化,所以叫版本空间。

也就是说,训练样本的这些假设只是版本空间的一个子集。这就是所谓的“泛化”。泛化的意思也就是,根据某些偏好,我们选择了版本空间里的一种假设作为判断好瓜坏瓜的决策准则,我能对训练集中的样本做出正确的判断,对于训练集中没有训练到的样本,我们也可以做出判断,但是判断结果可能是错误的。


猜你喜欢

转载自blog.csdn.net/qq_20936739/article/details/77982056
今日推荐