湖南科技大学数据挖掘复习提纲

2021/1/8更：根据消息人士透露：综合题大概率考Apriori和K-mean算法

一、选择题。（每个2分，本题共20分）

二、写出下列算法的主要思想(每题5分，本题共20分)
1. ARMA模型的主要思想。

可以理解为AR(p)自回归模型和MA(q)移动平均模型的合并,ARMA作为二者合并的金融时间序列模型，既可以捕获动量、均值回归效应，也能够捕获冲击效应。

2. PageRank算法的主要思想。

3. EM(最大期望)算法的主要思想

EM算法是一种迭代优化策略，它的计算方法中每一次迭代都分两步，其中一个为期望步（E步），另一个为极大步（M步）.

其基本思想是：首先根据己经给出的观测数据，估计出模型参数的值；然后再依据上一步估计出的参数值估计缺失数据的值，再根据估计出的缺失数据加上之前己经观测到的数据重新再对参数值进行估计，然后反复迭代，直至最后收敛，迭代结束。

三、简答题(每题10分，本题共30分)
1. KDD(数据库中的知识发现)的分类步骤及其功能

1 、问题定义

2 、数据采集

3 、数据预处理(含五个步骤):数据清洗、数据转换、数据描述、特征选择、特征抽取

4、数据挖掘

5、模式评估

2.数据分类的步骤及其基本任务

数据分类的两个步骤：

1．建立一个模型

数据元组也称作样本、实例或对象。

为建立模型而被分析的数据元组形成训练数据集。

训练数据集中的单个元组称作训练样本，由于提供了每个训练样本的类标号，因此也称作有监督学习。

通过分析训练数据集来构造分类模型，可用分类规则、决策树或数学公式等形式提供。

2 ．使用模型进行分类

首先评估模型（分类法）的预测准确率。

如果认为模型的准确率可以接受，就可以用它对类标号未知的数据元组或对象进行分类。

3.决策树剪枝的原因和策略

原因：避免决策树过拟合(Overfitting)样本。前面的算法生成的决策树非常详细并且庞大，每个属性都被详细地加以考虑，决策树的树叶节点所覆盖的训练样本都是“纯”的。因此用这个决策树来对训练样本进行分类的话，你会发现对于训练样本而言，这个树表现完好，误差率极低且能够正确得对训练样本集中的样本进行分类。训练样本中的错误数据也会被决策树学习，成为决策树的部分，但是对于测试数据的表现就没有想象的那么好，或者极差，这就是所谓的过拟合(Overfitting)问题。

策略：

预剪枝：通过提前停止树的构造来对决策树进行剪枝

后剪枝，在已生成过拟合决策树上进行剪枝，可以得到简化版的剪枝决策树。
4.样本间、类间距离度量方法有哪些

最短距离法：定义两个类中最靠近的两个元素间的距离为类间距离。

最长距离法：定义两个类中最远的两个元素间的距离为类间距离。

中心法：定义两类的两个中心间的距离为类间距离。

类平均法：它计算两个类中任意两个元素间的距离，并且综合他们为类间距离

离差平方和：类的直径反映了类中各元素间的差异，可定义为类中各元素至类中心的欧氏距离之和。

5.时间序列挖掘的概念

时间序列是指同一统计指标的数值按其发生的时间先后顺序排列而成的数列（是均匀时间间隔上的观测值序列）。

时间序列分析的主要目的是根据已有的历史数据对未来进行预测。

时间序列挖掘就是要从大量的时间序列数据中提取人们事先不知道的、但又是潜在有用的与时间属性相关的信息和知识，并用于短期、中期或长期预测，指导人们的社会、经济、军事和生活等行为。通过对过去历史行为的客观记录分析，揭示其内在规律，进而完成预测未来行为等决策性工作。

6. Web数据挖掘的意义

1、从大量的信息中发现用户感兴趣的信息

2、将web上的丰富信息转变成有用的知识

3、对用户进行信息个性化

7. AprioriAll与 AprioriSome序列挖掘算法的主要区别

书P220
四、综合题(每题15分,本题共30分)

1. Apriori算法的主要思想、生成频繁项目集和强关联规则的过程（必考）

核心思想是：连接步和剪枝步。连接步是自连接，原则是保证前k-2项相同，并按照字典顺序连接。剪枝步，是使任一频繁项集的所有非空子集也必须是频繁的。反之，如果某

个候选的非空子集不是频繁的，那么该候选肯定不是频繁的，从而可以将其从CK中删除。简单的讲，1、发现频繁项集，过程为（1）扫描（2）计数（3）比较（4）产生频繁项集（5）连接、剪枝，产生候选项集   重复步骤（1）~（5）直到不能发现更大的频集

参考来源：https://blog.csdn.net/lizhengnanhua/article/details/9061755?utm_medium=distribute.pc_relevant.none-task-blog-BlogCommendFromBaidu-1.control&depth_1-utm_source=distribute.pc_relevant.none-task-blog-BlogCommendFromBaidu-1.control

推荐视频教程：https://www.bilibili.com/video/BV1AJ411x7sf?from=search&seid=9854295243924040456

Apriori算法有两个致命的性能瓶颈:

1 ．多次扫描事务数据库，需要很大的 I/O 负载

2 ．可能产生庞大的侯选集



2. KNN(k最近领域)分类算法的主要思想、分类过程及结果

  K-近邻分类算法（K Nearest Neighbors，简称KNN）通过计算每个训练数据到待分类元组的距离，取和待分类元组距离最近的K个训练数据，K个数据中哪个类别的训练数据占多数，则待分类元组就属于哪个类别。
算法 4-2  K-近邻分类算法
输入：  训练数据T；近邻数目K；待分类的元组t。 
输出：  输出类别c。 
（1）N=Ø；
（2）FOR each d ∈T DO BEGIN
（3）   IF |N|≤K THEN
（4）    N=N∪{d}；    
（5）   ELSE
（6）	 IF  ∃ u ∈N  such that sim(t，u)〈sim(t，d) THEN BEGIN 
（7）	     N=N-{u}；
（8）	     N=N∪{d}；
（9）	  END
（10）END
（11）c=class to which the most u∈N. 
3. ID3决策树分类算法的主要思想、分类过程及结果

ID3 算法： Iterative Dichotomiser 3 ，迭代二叉树 3 代，是一种贪心算法。

ID3 算法最早是由罗斯昆（ J. Ross Quinlan ）于 1975 年在悉尼大学提出的一种分类预测算法，算法的核心是“信息熵”。

ID3 算法通过计算每个属性的信息增益，认为信息增益高的是好属性，每次划分选取信息增益最高的属性为划分标准，重复这个过程，直至生成一个能完美分类训练样例的决策树。

ID3算法的核心思想：

在决策树的每一个非叶子结点划分之前，先计算每一个属性所带来的信息增益，选择最大信息增益的属性来划分，因为信息增益越大，区分样本的能力就越强，越具有代表性，很显然这是一种自顶向下的贪心策略。

4. C4.5决策树分类算法的主要思想、分类过程及结果

5. Bayes(贝叶斯)的主要思想、分类过程及结果

贝叶斯方法使用概率统计的知识对样本数据集进行分类，特点是结合先验概率和后验概率，即避免了只使用先验概率的主管偏见，也避免了单独使用样本信息的过拟合现象。

朴素贝叶斯法是基于贝叶斯定理与特征条件独立假设的分类方法。即假定给定目标值时属性之间相互条件独立。也就是说没有哪个属性变量对于决策结果来说占有着较大的比重，也没有哪个属性变量对于决策结果占有着较小的比重。虽然这个简化方式在一定程度上降低了贝叶斯分类算法的分类效果，但是在实际的应用场景中，极大地简化了贝叶斯方法的复杂性

贝叶斯分类

设 X,Y 为两个随机变量，得到贝叶斯公式：

P(Y) 叫做先验概率， P(Y|X) 叫做后验概率， P(Y,X) 是联合概率。

先验概率是指根据以往经验和分析得到的概率。

后验概率，事情已经发生了，事情发生可能有很多原因，判断事情发生时由哪个原因引起的概率。

联合概率是指表示两个事件共同发生的概率。

推荐视频教程： https://www.bilibili.com/video/BV15J411W7oL?from=search&seid=3376745485926202524

6. k-mean(k-平均)聚类算法的的主要思想、聚类过程及结果

算法首先随机地选择k个对象，每个对象初始地代表了一个簇的平均值或中心。对剩余的每个对象根据其与各个簇中心的距离，将它赋给最近的簇。然后重新计算每个簇的平均值。这个过程不断重复，直到准则函数收敛。

例子：

7. PAM(围绕中心点划分)聚类算法的主要思想、聚类过程及结果（大概率不考）

频繁模式与关联规则

关联规则挖掘问题可以划分成两个子问题：

1,发现所有的频繁项集: 通过用户给定 Minsupport ，寻找所有频繁项目集或者最大频繁项目集。

2,从频繁项集中发现关联规则:通过用户给定Minconfidence ，在频繁项目集中，寻找关联规则