数据挖掘学习（二）——分类

定义分类（classification）分类任务就是通过学习得到一个目标函数f , 把每个属性集x映射到一个预先定义的类标号y. 目标函数也称分类模型（classification model）。分类模型可以用于以下目的。

①描述性建模。分类模型可以作为解释性工具，用于区分不同类中的对象。

②预测性建模。分类模型还可以用于预测未知记录的类标号。分类模型可以看作一个黑箱，当给定位置记录的属性集上的值时，它自动地赋予未知样本类标号。

分类技术非常适合预测或者描述二元或标称类型的数据集。

分类技术（或分类法）是一种根据输入数据集建立分类模型的系统方法。分类法的例子包括决策树分类法、基于规则的分类法、神经网络、支持向量机和朴素贝叶斯分类法。这些技术都使用一种学习算法确定分类模型，该模型能够很好地拟合输入数据中类标号和属性集之间的联系。学习算法得到的模型不仅要很好地拟合输入数据，还要能够正确地预测未知样本类标号的模型。

解决分类问题的一般方法：首先，需要一个训练集（training set），它由类标号已知的记录组成。使用训练集建立分类模型i，该模型随后应用于检验集（test set），检验集由类标号未知的记录组成。

分类方法：

1.决策树。决策树是一种由节点和有向边组成的层次结构。树中包含三种节点：根节点、内部节点、叶节点或终结点。

2.最近邻分类器。找出和测试样例的属性相对接近的所有训练样例，这些训练样例称为最近邻，可以用来确定测试样例的类标号。给定样例z的k-最近邻是指和z距离最近的k个数据点。必须选取合适的k值；如果k太小，则最近邻分类器容易受到由于悬链数据中的噪声而产生的过分拟合的影响；相反，如果k太大，最近邻分类器可能会误分类测试样例。

3. 贝叶斯分类器。贝叶斯定理： $P(Y|X)=\frac{P(X|Y)P(Y)}{P(X)}$

扫描二维码关注公众号，回复： 2732536 查看本文章

朴素贝叶斯分类器和贝叶斯信念网络。朴素贝叶斯分类器：给定标号y,朴素贝叶斯分类器在估计类条件概率时假设属性之间条件独立。

泛化误差估计：

模型越复杂，出现过分拟合的几率就越高，因此，我们更喜欢采用较为简单的模型。这种策略与应用总所周知的奥卡姆剃刀或节俭原则一致。

奥卡姆剃刀：给定两个具有相同泛化误差的模型，较简单的模型比较复杂的模型更可取。

数据挖掘学习（二）——分类

猜你喜欢