python（经典）数据标准化方法、聚类方法、分类方法总结：

（一）数据标准化的方法：
（1）离差标准化(最大最小值标准化）
（2）标准差标准化、
（3）归一化标准化
（4）二值化标准化
（5）独热编码标准化
说明：需要详细内容者请评论！博主尽量及时回复
（二）聚类的方法：
（1）划分法（k-means算法（k-均值算法），k-MEDOIDS算法（k-中心），CLARANS算法）
（2）层次分析方法（BIRCH算法，cure算法）
（3）基于密度的方法（DBSCAN算法，DENCLUS算法）
（4）基于网格的方法（STING算法，CLIOUE算法（聚类高维空间））
聚类模型评价的指标：
（1）兰德系数（ARI评价法），需要真实值，最佳值为1，python里的sklearm函数adjust_rand_score
（2）互信息（AMI评价法），需要真实值，最佳值为1，python里的sklearm函数adjust_mutuai_info_score
（3）V-measure评价法，需要真实值，最佳值为1，python里的sklearm函数completeness_score
（4）FMI评价法，需要真实值，最佳值为1，python里的sklearm函数fowlkes_mallows_score
（5）轮廓系数评价法，不需要真实值，畸变程度最大，python里的sklearm函数silhouette_score
（6）Calinski- Harabasz指数评价法，不需要真实值，相对较大，python里的sklearm函数calinski_harabaz_core
说明：评价的标准是组内的相似性越大，组间相似性越小，前四种方法因为有真实值得参与相对于后两种更具有说服力，那么当有真实值得参与时聚类的评价可以等同于分类算法的评价，轮廓系数在不考虑业务情况下得分越高越好，最高得分是1
说明：需要详细内容者请评论！博主尽量及时回复
（三）分类模型的方法：
（1）逻辑斯蒂回归，在python里的模块为linear_model,函数名为logisticRegression
（2）支持向量机，在python里的模块为SVM ，函数名为SVC
（3） k最近邻分类，在python里的模块为neighbors ，函数名为KNeighborsClassifier
（4）高斯朴素贝叶斯，在python里的模块为naive_bayes ，函数名为GaussiaNB
（5）分类决策树，在python里的模块为tree ，函数名为Decision Tree Classifier
（6）随机森林，在python里的模块为ensemble ，函数名为RandomForestClassifier
（7）梯度提升分类树，在python里的模块为ensemble ，函数名为GrndientBoostingClassidier
分类模型评价的指标：
（1） precision（精确率），最佳值为1，sklearn函数metrics.precision_score
（2）Recall(召回率)，最佳值为1，sklearn函数metrics.recall_score
（3）F1 值，最佳值为1 ，sklearn函数metrics.f1_score
（4）Cohen’s Kappa系数，最佳值为1，sklearn.cohen_kappa_score
（5）ROC曲线，最靠近有轴，在sklearn。roc_curve
（四）回归模型的方法：
线性回归、非线性回归、logistics回归、岭回归、主成分回归
线性回归，在python里的模块linear_model, 函数为linearRegression
支持向量机回归，在python里的模块svm, 函数为SVR
最近岭回归、回归决策树、随机森林回归、梯度提升回归树（详细看第6章scikit_learn）
回归模型的评价指标：
平均绝对误差，最优值为0
均方误差，最优值为0
中值绝对误差，最优值为0
可解释方差值，最优值为1
R方值，最优值为1
说明：回归模型的评价不同于分类模型，虽然都是对真实在进行对比，但是由于回归模型的预测结果的真实值都是线性的，不能够求取precision，recall，和f1等值评价，回归模型拥有自己的评价指标。
说明：需要详细内容者请评论！博主尽量及时回复

python（经典）数据标准化方法、聚类方法、分类方法总结：

猜你喜欢