机器学习算法优缺点及应用

一、DT

优点：易于理解和解释，可以可视化分析；运行速度较快；可以很好的扩展到大型数据库中。

缺点：对缺失值处理比较困难；容易出现过拟合问题；忽略数据中属性的相互关联；可能或陷于局部最小值中；ID3算法计算信息增益时结果偏向数值比较多的特征。

改进：进行剪枝。采用交叉验证法和正则化的方法。使用基于决策树的combination算法，如bagging算法，randomforest算法，可以解决过拟合的问题。

应用：企业管理实践、企业投资决策。决策树有很好的分析能力，在决策过程中应用较多。

二、Logistic Regression

优点：易于理解和实现，计算代价不高

缺点：易过拟合，分类精度不高

应用：二分类领域，得出概率值。适用于根据分类排名的领域，如搜索排名等。还可以扩展到多分类领域。

扫描二维码关注公众号，回复： 1046064 查看本文章

三、KNN

优点：KNN是一种在线技术，新数据可以直接加入数据集而不必进行重新训练

缺点：k值的大小选择；样本容量越大，计算量越大；当样本不平衡时，如某一类样本多，某一类样本少时，预测偏差较大。k值属于少数服从多数原则；KNN每一次分类都会进行重新计算。

应用：文本分类，模式识别，聚类分析，多分类领域

四、SVM

优点：解决非线性问题；可以很好处理高维数据集；泛化能力比较强；无局部极小值问题。

缺点：对缺失数据敏感，对核函数的高维映射解释力不强，尤其是径向基函数。

应用：文本分类、图形识别、主要二分类领域（结果为+1和-1）

五、朴素贝叶斯

优点：1、对大数量训练和查询时具有较高的速度。即使使用超大规模的训练集，针对每个项目通常也只会有相对较少的特征数，并且对项目的训练和分类也仅仅是特征概率的数学运算而已。

2、支持增量式运算。即可以实时的对新增的样本进行训练。3、朴素贝叶斯对结果解释容易理解。

缺点：样本属性独立性的假设，是的样本属性有关联时效果不好。

应用：文本分类、欺诈检测

六、人工神经网络

优点：

1、分类准确度高，学习能力极强。

2、对噪声数据鲁棒性和容错性较强。

3、有联想能力，能逼近任意非线性关系。

缺点：

1、神经网络参数较多，权值和阈值。

2、黑盒过程，不能观察中间结果。

3、学习过程比较长，有可能陷入局部极小值。

应用：计算机视觉，自然语言处理，语音识别

七、AdaBoost

优点：

1、很好的利用了弱分类器进行级联。

2、可以将不同的分类算法作为弱分类器。

3、AdaBoost具有很高的精度。

4、相对于bagging算法和Random Forest算法，AdaBoost充分考虑的每个分类器的权重。

缺点：

1、AdaBoost迭代次数也就是弱分类器数目不太好设定，可以使用交叉验证来进行确定。

2、数据不平衡导致分类精度下降。

3、训练比较耗时，每次重新选择当前分类器最好切分点。

应用：模式识别、计算机视觉领域，用于二分类和多分类场景。

https://blog.csdn.net/mach_learn/article/details/39501849

八、KMeans

应用：社交图谱、相似性匹配（如搜索相似的新闻、帖子）

机器学习算法优缺点及应用

猜你喜欢