1. SVM
- 优点
- SVM在解决小样本,非线性以及高维特征中表现出许多特有的优势。
- SVM基于有限的样本信息在模型的复杂度和模型准确性之间寻求最佳折中,以获得最好的预测效果。
- 缺点
- 在数据量大的情况下运算复杂度高,不适合处理过大的数据。
- 模型稳定性低,输入的微小变化会使得模型难以收敛。
- SVM仅直接适用于二分类任务。因此,必须应用将多类任务减少到几个二元问题的算法。
- 适用场景
目前SVM主要应用在模式识别领域中的文本识别,中文分类,人脸识别等,同时也应用到信息过滤等方面。
2. 朴素贝叶斯
- 优点
- 算法逻辑简单,易于实现
- 分类过程中时空开销小(假设特征相互独立,只会涉及到二维存储)
- 对缺失数据不太敏感,算法也比较简单,常用于文本分类,欺诈检测。
- 对小规模的数据表现良好,适合多分类任务,适合增量式训练。
- 缺点
- 理论上,朴素贝叶斯模型与其他分类方法比具有最小的误差率,但实际上并非总是如此,这是因为朴素贝叶斯模型假设属性之间的相互独立,这个假设在实际应用中往往是不成立的,在++属性个数比较多或者属性之间相关性较大时,分类效果不好++,而在属性相关性较小时,朴素贝叶斯性能最为良好。
- 适用场景
垃圾邮件分类等
3.逻辑回归
- 优点
- 实现简单
- 分类时计算量小,速度快,存储资源低
- 缺点
- 容易欠拟合,一般准确度不太高
- 只能处理二分类问题(在此基础上衍生出来的softmax可以用于多分类),且必须线性可分
4. 线性回归
- 优点
- 实现简单计算简单
-缺点
- 不能拟合非线性数据
5. KNN算法
- 优点
- 思想简单,理论成熟,即可以用来做分类,也可以用来做回归。
- 可以用于非线性分类
- 训练时间复杂度为O(n)
- 准确度高,对数据没有假设,对outlier不敏感
- 缺点
- 计算量大
- 样本不平衡问题造成影响很大
- 计算时需要大量内存
6.Boosting
- 优点
- 低泛化误差
- 容易实现,分类准确率较高,超参数少
- 缺点
- 对outlier比较敏感