1. 机器学习是什么

狭义上的机器学习是一种使用特定模型对样本数据进行分析，然后进行预测与决策的工具。注意机器学习的范围限定在对样本进行分析的范围中，因此常见的机器学习教材并不会涉及规划求解的内容。

2. 机器学习模型

主要分类如下：
1. 按样本是否带有标签，分为有监督和无监督两类。
2. 按预测值是离散还是连续，分为分类和回归两类。

常见的模型有：
线性模型（线性回归、逻辑回归），决策树，神经网络，支持向量机，贝叶斯模型，集成学习（bagging和boosting两类），聚类模型。

3. 模型评估方法

过拟合问题：模型在训练集上误差很小，在测试集上误差很大。解决方法主要有：
1. 留出法：数据留出一部分数据作为测试集。
2. 交叉验证法：将数据划分为k个子集，每次用一个子集作为测试集。
3. booststrap方法：每次随机从大小为m的样本中复制一个，共复制m次。复制的集合作为训练集，剩下的样本作为测试集。

模型评估：
1. 错误率：错分/总数。错分包括假正和假反两种情况。
2. 精度：对分/总数。对分包括真正和真反两种情况。
3. 查准率（precision）：真正/预测正。预测正=真正+假正。
4. 查全率（recall）：真正/实际正。实际正=真正+假反。
5. P-R曲线：查准 vs 查全，一般来说是个负相关的曲线。查准=查全时的点成为平衡点（Break-Even Point，BEP）
6. F1（调和平均）：2/(1/查准+1/查全)。更加广义的是 $F_\beta = (1+\beta^2)/(1/查准+\beta^2/查全)$
7. AUC：首先定义ROC（Receiver Operating Characteristic）曲线，真正率vs假正率。真正率=真正/实际正；假正率=假正/实际假。按照预测结果进行排序，一般来说是一个从(0,0)到(1,1)的凹函数。下面的面积叫AUC（Area Under Curve），用来评估模型的优劣。

机器学习核心内容

1. 机器学习是什么

2. 机器学习模型

3. 模型评估方法

猜你喜欢