西瓜书第一章假设空间和版本空间

一开始看到这一节的时候被搞晕了，要搞清楚这个问题，必须要理解假设空间和版本空间的意义。

对于一个瓜是不是好瓜，要有一个判定条件，这个判定条件就是一个假设。比如说，我们的假设是：色泽青绿、根蒂蜷缩、敲声浊响的瓜是好瓜。或者我们也可以假设：只要色泽青绿、根蒂蜷缩的瓜，无论敲声随便是什么声音（书中用通配符*表示），都是好瓜。极端情况下，我们也可以假设世界上是没有好瓜的，不管是什么颜色什么根蒂什么敲声，都是坏瓜（书中用空集表示）。

上面只是举了几种可能的假设的例子。这样，我们数一下一共可以做出几种假设。由于色泽、根蒂、敲声各有4种可能取值（别忘记随便取值的情况），我们根据这些取值的排列组合，一共可以做出4*4*4=64种假设，再加上“没有好瓜”的这种极端假设，共有65种假设。这65种假设构成的集合，叫做假设空间。

这时，我们有了一些训练集（西瓜书表1.1所示），我们对“什么是好瓜、什么是坏瓜”有了一定的了解。这样以来，通过这些有限的训练集，我们就知道上面这65种假设中，有些有错误的，有些假设可能正确。我们要做的，是排除错误的假设。也就是说，假设版本要和训练集“匹配”。

下面举例说明“匹配”的意义。比如我们上面的假设，色泽青绿、根蒂蜷缩、敲声浊响的瓜是好瓜。这句话本身并没有问题，但是它作为一种假设，需要被剔除。因为当我们做出这种假设时，意味着色泽乌黑、根蒂蜷缩、敲声浊响的瓜不是好瓜，这和表中第二个训练样本是矛盾的，训练表明色泽乌黑、根蒂蜷缩、敲声浊响的瓜也是好瓜。再比如说，色泽=*，根蒂=*，敲声是浊响的瓜是好瓜。如果我们做出这种假设，对于表中的4种训练样本，在这种假设下都能做出正确的判断。对于色泽是浅白，根蒂蜷缩，敲声浊响的瓜，根据这种假设，我们也能做出是好瓜的判断，只是这种判断可能正确可能错误。因此，要想判断的正确，就要全面、大量的训练，以排除更多假设空间中的错误假设。错误假设越少，剩下的假设越少，就越有可能是正确假设，我们判断的结果的正确概率越大。按照这种思路排除错误假设，剩下的那些假设就构成了版本空间。这个空间随训练集的版本不同，会变化，所以叫版本空间。

也就是说，训练样本的这些假设只是版本空间的一个子集。这就是所谓的“泛化”。泛化的意思也就是，根据某些偏好，我们选择了版本空间里的一种假设作为判断好瓜坏瓜的决策准则，我能对训练集中的样本做出正确的判断，对于训练集中没有训练到的样本，我们也可以做出判断，但是判断结果可能是错误的。

西瓜书第一章 假设空间和版本空间

猜你喜欢

西瓜书第一章假设空间和版本空间