python(经典)数据标准化方法、聚类方法、分类方法总结:

(一)数据标准化的方法:
(1)离差标准化(最大最小值标准化)
(2)标准差标准化、
(3)归一化标准化
(4)二值化标准化
(5)独热编码标准化
说明:需要详细内容者请评论!博主尽量及时回复
(二)聚类的方法:
(1)划分法(k-means算法(k-均值算法),k-MEDOIDS算法(k-中心),CLARANS算法)
(2)层次分析方法(BIRCH算法,cure算法)
(3)基于密度的方法(DBSCAN算法,DENCLUS算法)
(4)基于网格的方法(STING算法,CLIOUE算法(聚类高维空间))
聚类模型评价的指标:
(1) 兰德系数(ARI评价法),需要真实值,最佳值为1,python里的sklearm函数adjust_rand_score
(2)互信息(AMI评价法),需要真实值,最佳值为1,python里的sklearm函数adjust_mutuai_info_score
(3)V-measure评价法, 需要真实值,最佳值为1,python里的sklearm函数completeness_score
(4)FMI评价法,需要真实值,最佳值为1,python里的sklearm函数fowlkes_mallows_score
(5)轮廓系数评价法,不需要真实值,畸变程度最大,python里的sklearm函数silhouette_score
(6)Calinski- Harabasz指数评价法,不需要真实值,相对较大,python里的sklearm函数calinski_harabaz_core
说明:评价的标准是组内的相似性越大,组间相似性越小,前四种方法因为有真实值得参与相对于后两种更具有说服力,那么当有真实值得参与时聚类的评价可以等同于分类算法的评价 ,轮廓系数在不考虑业务情况下得分越高越好,最高得分是1
说明:需要详细内容者请评论!博主尽量及时回复
(三)分类模型的方法:
(1)逻辑斯蒂回归,在python里的模块为linear_model,函数名为logisticRegression
(2)支持向量机,在python里的模块为SVM ,函数名为SVC
(3) k最近邻分类,在python里的模块为neighbors ,函数名为KNeighborsClassifier
(4)高斯朴素贝叶斯,在python里的模块为naive_bayes ,函数名为GaussiaNB
(5)分类决策树,在python里的模块为tree ,函数名为Decision Tree Classifier
(6) 随机森林,在python里的模块为ensemble ,函数名为RandomForestClassifier
(7)梯度提升分类树,在python里的模块为ensemble ,函数名为GrndientBoostingClassidier
分类模型评价的指标:
(1) precision(精确率),最佳值为1,sklearn函数metrics.precision_score
(2)Recall(召回率),最佳值为1,sklearn函数metrics.recall_score
(3)F1 值,最佳值为1 ,sklearn函数metrics.f1_score
(4)Cohen’s Kappa系数,最佳值为1,sklearn.cohen_kappa_score
(5)ROC曲线,最靠近有轴,在sklearn。roc_curve
(四)回归模型的方法:
线性回归、非线性回归、logistics回归、岭回归、主成分回归
线性回归,在python里的模块linear_model, 函数为linearRegression
支持向量机回归,在python里的模块svm, 函数为SVR
最近岭回归、回归决策树、随机森林回归、梯度提升回归树 (详细看第6章scikit_learn)
回归模型的评价指标:
平均绝对误差,最优值为0
均方误差,最优值为0
中值绝对误差,最优值为0
可解释方差值,最优值为1
R方值,最优值为1
说明:回归模型的评价不同于分类模型,虽然都是对真实在进行对比,但是由于回归模型的预测结果的真实值都是线性的,不能够求取precision,recall,和f1等值评价,回归模型拥有自己的评价指标。
说明:需要详细内容者请评论!博主尽量及时回复

猜你喜欢

转载自blog.csdn.net/data_bug/article/details/81586412