机器学习核心内容

1. 机器学习是什么

狭义上的机器学习是一种使用特定模型对样本数据进行分析,然后进行预测与决策的工具。注意机器学习的范围限定在对样本进行分析的范围中,因此常见的机器学习教材并不会涉及规划求解的内容。

2. 机器学习模型

主要分类如下:
1. 按样本是否带有标签,分为有监督和无监督两类。
2. 按预测值是离散还是连续,分为分类和回归两类。

常见的模型有:
线性模型(线性回归、逻辑回归),决策树,神经网络,支持向量机,贝叶斯模型,集成学习(bagging和boosting两类),聚类模型。

3. 模型评估方法

过拟合问题:模型在训练集上误差很小,在测试集上误差很大。解决方法主要有:
1. 留出法:数据留出一部分数据作为测试集。
2. 交叉验证法:将数据划分为k个子集,每次用一个子集作为测试集。
3. booststrap方法:每次随机从大小为m的样本中复制一个,共复制m次。复制的集合作为训练集,剩下的样本作为测试集。

模型评估:
1. 错误率:错分/总数。错分包括假正和假反两种情况。
2. 精度:对分/总数。对分包括真正和真反两种情况。
3. 查准率(precision):真正/预测正。预测正=真正+假正。
4. 查全率(recall):真正/实际正。实际正=真正+假反。
5. P-R曲线:查准 vs 查全,一般来说是个负相关的曲线。查准=查全时的点成为平衡点(Break-Even Point,BEP)
6. F1(调和平均):2/(1/查准+1/查全)。更加广义的是 F β = ( 1 + β 2 ) / ( 1 / + β 2 / )
7. AUC:首先定义ROC(Receiver Operating Characteristic)曲线,真正率vs假正率。真正率=真正/实际正;假正率=假正/实际假。按照预测结果进行排序,一般来说是一个从(0,0)到(1,1)的凹函数。下面的面积叫AUC(Area Under Curve),用来评估模型的优劣。

猜你喜欢

转载自blog.csdn.net/kittyzc/article/details/81979953