Data Mining 入门

一、association 关联规则挖掘

    一个事件与另一个事件之间的一来关系。

    关联规则算法:Apriori 算法:首先从事件中寻找所有频繁出现的事件子集,然后再这些频繁事件子集中发现可信度比较搞的规则。

二、聚类:聚类就是将数据对象划分成若干个子类,在同一类中的对象具有较高的相似度,而不同类中的对象差异较大。

    聚类算法:划分方法、层次聚类方法

    k-Means:把n个数据对象划分成k 个类,使每个类中的数据点到该类中心的距离平方和最小

    k-Medoids:

     和 聚集、分裂算法

    层次方法:(Hierarchical Method ) 这种方法按照数据分层简历簇,形成一颗以簇为节点的树。如果自底向上进行层次聚集,则称为凝聚(Aggalomerative)的 层次聚类; 如果按照自定向下进行层次分解,成为裂法(Divisive)的层次聚类。

    视觉聚类算法:

    聚类的基本原则:相似率、连续率、闭合率、近邻率和对称率。

三、预测

    数据挖掘预测是通过对反映了事物输入与输出之间的关联性的学习,得到预测模型,在利用该模型对未来数据进行预测的过程。

    典型的机器学习:决策树方法,人工神经网络、支持向量机、正则化方法。

    决策树:ID3 、 C4.5 用信息增益比率作为选择标准;合并连续属性的值;可以处理具有缺少属性值的训练样本;运用不同的剪枝技术来避免决策树的过拟合现象;K次交叉验证等。

    剪枝:预剪枝 :简历规则限制决策树的充分生长。 后剪枝:等决策树生长完毕后剪去不具有一般性的叶子或者分支。

    人工神经网络:

    支持向量机(Support Vector Machines): 

    正则化方法::Lasso 模型 、 L1/2正则化模型及其迭代阈值算法。

四、序列和时间序列



数据挖掘工具软件的性能测试报告:http://www.datamininglab.com






猜你喜欢

转载自blog.csdn.net/QiwzDeBLOG/article/details/80694208