机器学习算法优缺点及应用

一、DT

优点:易于理解和解释,可以可视化分析;运行速度较快;可以很好的扩展到大型数据库中。

缺点:对缺失值处理比较困难;容易出现过拟合问题;忽略数据中属性的相互关联;可能或陷于局部最小值中;ID3算法计算信息增益时结果偏向数值比较多的特征。

改进:进行剪枝。采用交叉验证法和正则化的方法。使用基于决策树的combination算法,如bagging算法,randomforest算法,可以解决过拟合的问题。

应用:企业管理实践、企业投资决策。决策树有很好的分析能力,在决策过程中应用较多。


二、Logistic Regression

优点:易于理解和实现,计算代价不高

缺点:易过拟合,分类精度不高

应用:二分类领域,得出概率值。适用于根据分类排名的领域,如搜索排名等。还可以扩展到多分类领域。


扫描二维码关注公众号,回复: 1046064 查看本文章

三、KNN

优点:KNN是一种在线技术,新数据可以直接加入数据集而不必进行重新训练

缺点:k值的大小选择;样本容量越大,计算量越大;当样本不平衡时,如某一类样本多,某一类样本少时,预测偏差较大。k值属于少数服从多数原则;KNN每一次分类都会进行重新计算。

应用:文本分类,模式识别,聚类分析,多分类领域


四、SVM

优点:解决非线性问题;可以很好处理高维数据集;泛化能力比较强;无局部极小值问题。

缺点:对缺失数据敏感,对核函数的高维映射解释力不强,尤其是径向基函数。

应用:文本分类、图形识别、主要二分类领域(结果为+1和-1)


五、朴素贝叶斯

优点:1、对大数量训练和查询时具有较高的速度。即使使用超大规模的训练集,针对每个项目通常也只会有相对较少的特征数,并且对项目的训练和分类也仅仅是特征概率的数学运算而已。

2、支持增量式运算。即可以实时的对新增的样本进行训练。3、朴素贝叶斯对结果解释容易理解。

缺点:样本属性独立性的假设,是的样本属性有关联时效果不好。

应用:文本分类、欺诈检测


六、人工神经网络

优点:

1、分类准确度高,学习能力极强。

2、对噪声数据鲁棒性和容错性较强。

3、有联想能力,能逼近任意非线性关系。

缺点:

1、神经网络参数较多,权值和阈值。

2、黑盒过程,不能观察中间结果。

3、学习过程比较长,有可能陷入局部极小值。

应用:计算机视觉,自然语言处理,语音识别


七、AdaBoost

优点:

1、很好的利用了弱分类器进行级联。

2、可以将不同的分类算法作为弱分类器。

3、AdaBoost具有很高的精度。

4、相对于bagging算法和Random Forest算法,AdaBoost充分考虑的每个分类器的权重。

缺点:

1、AdaBoost迭代次数也就是弱分类器数目不太好设定,可以使用交叉验证来进行确定。

2、数据不平衡导致分类精度下降。

3、训练比较耗时,每次重新选择当前分类器最好切分点。

应用:模式识别、计算机视觉领域,用于二分类和多分类场景。

https://blog.csdn.net/mach_learn/article/details/39501849


八、KMeans

应用:社交图谱、相似性匹配(如搜索相似的新闻、帖子)

猜你喜欢

转载自blog.csdn.net/weixin_41512727/article/details/80209997