分类问题的数学定义

机器学习的任务大概可以分为分类和决策两类。当然,这两类问题并没有严格的界限。许多决策问题本质也是在分类。因为所谓决策,是根据当前的环境(输入),筛选出最优的策略。这个最优的策略可以看做是环境输入的类别。但是,决策问题与传统的分类问题不同。1. 通常分类问题预定的类别是有限个,而决策问题的策略集合可能无限。2. 一个输入的类别通常是确定的(即一个输入对应一个类别),可是在决策问题中,一个环境输入对应的策略可能是非确定的(即博弈论中所谓的混合策略)。

一个传统的分类问题,其本质是构造一个函数,将连续型变量映射成离散型变量。具体定义如下。

假设 D 是实例空间 X 上的一个概率分布。 S 是我们从实例空间中抽取出的训练集。训练集 S 中的每个实例都以概率分布 D 从实例空间 X 中取得。确切的说,训练集 S 被选中的概率满足

Pr{S}=xSD(x).

我们的目标是根据训练集 S 构造一个分类模型,预测实例空间 X 中实例的分类。

对于任何一个(含有有限个类别的)分类问题,都可以看成是若干个二分类问题的组合。因此,我们可以不失一般性地假设我们讨论的分类问题是一个二分类问题,并记所有实例的类别为0或者1。

假设 c 是实例空间 X 的正确的分类函数。即对于任意的 xX , c(x) 是它正确的分类。显然, c 可以完全由集合

{xX:c(x)=1}

确定。为了描述方便,我们就令
c={xX:c(x)=1}.

(这里的c^*有点类似于示性函数)。

接下来,令 h 为我们根据训练集 S 构造的分类器。那么我们定义

errD(h)=D(hc)=xhcD(x)

为分类器 h 真正错误概率,其中
hc={xX:h(x)c(x)}

h c 的异或集。同时,我们定义
errS(h)=|S(hc)||S|

为分类器 h 实验错误概率

通常,一个分类器 h 构造出来,实验错误概率便可以直接求得。然而,我们真正感兴趣的是 h 的真正错误概率。因此,我们需要研究实验错误概率与真正错误概率的关系。

猜你喜欢

转载自blog.csdn.net/hedan2013/article/details/77489008
今日推荐