机器学习的任务大概可以分为分类和决策两类。当然,这两类问题并没有严格的界限。许多决策问题本质也是在分类。因为所谓决策,是根据当前的环境(输入),筛选出最优的策略。这个最优的策略可以看做是环境输入的类别。但是,决策问题与传统的分类问题不同。1. 通常分类问题预定的类别是有限个,而决策问题的策略集合可能无限。2. 一个输入的类别通常是确定的(即一个输入对应一个类别),可是在决策问题中,一个环境输入对应的策略可能是非确定的(即博弈论中所谓的混合策略)。
一个传统的分类问题,其本质是构造一个函数,将连续型变量映射成离散型变量。具体定义如下。
假设
我们的目标是根据训练集
对于任何一个(含有有限个类别的)分类问题,都可以看成是若干个二分类问题的组合。因此,我们可以不失一般性地假设我们讨论的分类问题是一个二分类问题,并记所有实例的类别为0或者1。
假设
确定。为了描述方便,我们就令
(这里的c^*有点类似于示性函数)。
接下来,令
为分类器
是
为分类器
通常,一个分类器