分类问题的数学定义

机器学习的任务大概可以分为分类和决策两类。当然，这两类问题并没有严格的界限。许多决策问题本质也是在分类。因为所谓决策，是根据当前的环境（输入），筛选出最优的策略。这个最优的策略可以看做是环境输入的类别。但是，决策问题与传统的分类问题不同。1. 通常分类问题预定的类别是有限个，而决策问题的策略集合可能无限。2. 一个输入的类别通常是确定的（即一个输入对应一个类别），可是在决策问题中，一个环境输入对应的策略可能是非确定的（即博弈论中所谓的混合策略）。

一个传统的分类问题，其本质是构造一个函数，将连续型变量映射成离散型变量。具体定义如下。

假设 $D$ 是实例空间 $\mathcal{X}$ 上的一个概率分布。 $S$ 是我们从实例空间中抽取出的训练集。训练集 $S$ 中的每个实例都以概率分布 $D$ 从实例空间 $\mathcal{X}$ 中取得。确切的说，训练集 $S$ 被选中的概率满足

Pr {训 练 集 S 被 选 中} = \prod x \in S D (x) .

$\Pr\{训练集S被选中\}=\prod_{x\in S}D(x).$
我们的目标是根据训练集

S $S$ 构造一个分类模型，预测实例空间

X $\mathcal{X}$ 中实例的分类。

对于任何一个（含有有限个类别的）分类问题，都可以看成是若干个二分类问题的组合。因此，我们可以不失一般性地假设我们讨论的分类问题是一个二分类问题，并记所有实例的类别为0或者1。

假设 $c^*$ 是实例空间 $\mathcal{X}$ 的正确的分类函数。即对于任意的 $x\in\mathcal{X}$ , $c^*(x)$ 是它正确的分类。显然， $c^*$ 可以完全由集合

{x \in X : c * (x) = 1}

$\{x\in\mathcal{X}: c^*(x)=1\}$
确定。为了描述方便，我们就令

c * = {x \in X : c * (x) = 1} .

$c^*=\{x\in\mathcal{X}: c^*(x)=1\}.$
(这里的c^*有点类似于示性函数)。

接下来，令 $h$ 为我们根据训练集 $S$ 构造的分类器。那么我们定义

e r r D (h) = D (h △ c *) = \sum x \in h △ c * D (x)

$err_D(h)=D(h\triangle c^*)=\sum_{x\in h\triangle c^*}D(x)$
为分类器

h $h$ 的 真正错误概率，其中

h △ c * = {x \in X : h (x) \neq c * (x)}

$h\triangle c^*=\{x\in\mathcal{X}: h(x)\neq c^*(x)\}$
是

h $h$ 和

c∗ $c^*$ 的异或集。同时，我们定义

e r r S (h) = | S \cap ( h △ c * ) | | S |

$err_S(h)=\frac{|S\cap(h\triangle c^*)|}{|S|}$
为分类器

h $h$ 的 实验错误概率。

通常，一个分类器 $h$ 构造出来，实验错误概率便可以直接求得。然而，我们真正感兴趣的是 $h$ 的真正错误概率。因此，我们需要研究实验错误概率与真正错误概率的关系。

分类问题的数学定义

猜你喜欢