数据挖掘期末考试

1理解概念

1.1数据挖掘 1.2关联规则 1.3数据预处理 1.4置信度 1.5聚类 1.6KNN 1.7SVM

2 分类器设计的三个过程

3 分类时常将样本怎样划分？

4 评估分类器性能的常用指标

5 数据挖掘常用技术有哪些？

6 数据预处理的主要方法？

7 决策树分类算法步骤

8 OLAP技术多维分析过程的多维分析操作有哪些？

9 数据可视化的分类方法有哪些？

10 数据规约的策略有哪些？

11 数据光滑的分箱方法有哪些？

12 数据挖掘的主要功能包括那几个方面？

13 基于密度的分类方法有哪些？

后面是问答

14 什么是决策树？

15如何利用决策树进行分类？

16 分类知识的发现方法有哪些？

17 分类规则的挖掘方法有哪些？和上面的答案一样

18 分类过程通常包括哪两个阶段？

19 回归和分类的区别？

20 什么是聚类？

21 聚类和分类有和异同？

22 聚类的挖掘方法有啥？

23 按聚类分析方法的主要思路可将聚类分析方法分为哪几种类型

24 什么是数据规范化？

25 数据规范化的方法有哪些？

以下几种算法认真看

26 26.1ID3决策树算法 26.2Aprior算法 26.3k_means算法 26.4Naïve Bayes算法

1.1从大型数据集（可能是不完全的，有噪声的，不确定的，各种存储形式的）中，挖掘隐含在其中的，且事先不知道的对决策有用的知识的过程。（广义）

从特定形式的数据集中提炼知识的过程（狭义）

1.2从给定的数据集中发现频繁出现的项目集模式知识，即x->y的蕴涵式。其中x，y分别称为先导和后继。

1.3 数据预处理：用各种方法对数据进行变换、加工，以便它适用于存储、管理及进一步分析和应用。主要内容包括数据清理、数据集成、数据规约、数据变换。

1.4 置信度：包含I1和I2的事务数与包含I1的事务数之比。

1.41支持度：包含I1的事务在数据集D上所占的比例。

1.5 聚类：通过最大化类内相似性，最小化类间相似性的方法将数据分为簇和组来分析数据对象。

1.6 KNN：（p68下面）计算每个训练数据到待分类元组的距离，取和待分类元组距离最近的k个训练数据，k个数据中哪个类别的训练数据占多数，则待分类元组就属于哪个类别。

1.7SVN

1.71SVM （支持向量机）支持向量机是一种二分类模型，它的目的是寻找一个超平面来对样本进行分割，分割的原则是间隔最大化，最终转化为一个凸二次规划问题来求解。

2 划分数据集、分类器构造、分类器测试。

3 训练数据和测试数据

a保持方法（留出法）：将样本划分为两个互斥的数据集，一个作为学习集，另一个作为训练集。

b交叉验证法：将样本划分为大小相似的k个集合，然后进行k次实验，每次实验用k-1个集合作为训练集，用1个集合作为测试集。

c自助法：对于有m个样本的数据集，随机抽m次得到训练集，剩下的作为测试集。

4 准确率、错误率、召回率、特效性、精度
（混淆矩阵、ROC曲线、AUC面积）
【不确定是哪个】

5 a人工神经网络、 b决策树、c遗传算法、d近邻算法、e规则推导

6 数据清理、数据集成、数据变换和数据规约。

7决策树生成和决策树修剪

8 钻取、上卷、切片、切块以及旋转

9 a基于像素的可视化技术 b几何投影可视化技术 c基于图符的可视化技术 d层次可视化技术 e可视化复杂数据对象和关系

10 维规约，数量规约，数据压缩、数据立方体聚集、离散化和概念分层

11 分箱方法主要有：用箱均值光滑、用箱中位数光滑、用箱边界光滑。

12 a类/概念描述：特征化和区分 b关联分析 c分类和预测 d聚类分析 e孤立点分析 f演变分析（p6）

13 DBSCAN OPTICS DENCLUE

14 决策树是一个类似于流程图的树结构，其中每个内部结点表示在一个属性上的测试，每个分支代表一个测试输出，而每个树叶节点代表类或类分布。树的最顶层结点是根结点。

15 决策树用于对新样本的分类，即通过决策树对新样本属性值的测试，从树的根节点开始，根据样本属性的取值，沿着树向下，直到叶节点。该叶节点代表的类别就是新样本的类别。决策树是高效的分类方法。

16 决策树法贝叶斯法人工神经网络法粗糙集法和遗传算法。分类的过程包括两步，首先在训练集上根据属性特征为每一种类型找到合理的描述或模型，即分类规则。然后按照分类规则进行分类。

17 同16

18 分类的过程包括两步，首先在训练集上根据属性特征为每一种类型找到合理的描述或模型，即分类规则。然后按照分类规则进行分类。

19 分类和回归的本质都是一样的都是对输入作出预测，区别是分类输出的是离散型变量，是定性的，而回归输出的连续型的变量，是定量的。

20 聚类是将物理或抽象对象集合分组为多个类或簇的过程，使得在同一个簇中的对象相似度很高，而不同簇的对象之间差别很大。

21 聚类与分类不同，聚类要划分的类是未知的，而分类则可按已知规则进行；聚类是一种无指导学习，它不依赖于预先定义的类和带标号的训练实例，属于观察式学习。而分类是有指导学习，属于示例式学习。

22 a 划分聚类方法有 k-平均算法，k-中心点算法 b层次聚类方法 BIRCH聚类算法，CURE聚类算法 c密度聚类算法 DBSCAN算法 OPTICS算法那 d基于网格聚类算法 e神经网络聚类方法 SOM

n划分法（Partitioning Methods）：基于一定标准构建数据的划分。属于该类的聚类方法有：k-means、k-modes、k-prototypes、k-medoids、PAM、CLARA、CLARANS等。

n层次法（Hierarchical Methods）：对给定数据对象集合进行层次的分解或合并。

n密度法（density-based Methods）：基于数据对象的相连密度评价。

n网格法（Grid-based Methods）：将数据空间划分成为有限个单元（Cell）的网格结构，基于网格结构进行聚类。

n模型法（Model-Based Methods）：给每一个簇假定一个模型，然后去寻找能够很好的满足这个模型的数据子集。

24 数据规范化，即数据标准化，将数据按照一定规则缩放，使其落入一段特定的小的区间。目的是去除单位的限制，将其转换为无量纲的纯数据，便于不同单位的数值进行比较。

常用的方法：min-max标准化，归一化标准化 Z-score标准化。

第一个公式的右端的右端都是new 中间部分是主体，并且和分母很相像。三个公式都是分数形式

26 简述key-means输入输出和过程

输入：簇的数目k和包含n个对象的数据库。

输出：k个簇，使平方误差准则最小。

首先随机地选择k个对象，每个对象初始地代表了一个簇的平均值或中心。对剩余的每个对象根据其与各个簇中心的距离，将它赋给最近的簇。然后重新计算每个簇的平均值。这个过程不断重复，直到准则函数收敛。

27 ID3 算法的主要思想和主要步骤

首先找出最有判别力的因素，将数据分为多个子集，每个子集又选最有判别力的因素进行划分，一直进行到所有子集中的数据都为同一类别为止，此时可以得到一颗决策树。

基本步骤：从训练集中随机选择一个即合正例又合反例的子集（称为窗口）

用建树算法对当前窗口形成一颗决策树

对训练集（窗口除外）中例子用决策树进行类别判别，如果存在错判的例子，把它们插入窗口，重复步骤2.

其他复习资料见书 ppt 和公开课

数据挖掘期末考试

猜你喜欢