机器学习1 从基础讲起

引言

机器学习已经学了两三个月了，看了西瓜书，机器学习实战，也走过不少弯路，现在做做总结，把经验写下了。

什么机器学习

以我们人类做类比，我们看过、吃过很多西瓜后，判断色泽青绿、根蒂蜷缩、敲声浊响的这类瓜就是好瓜。我们通过积累经验，在通过经验进行运用，就会对新情况做出更有效判断。

机器学习就是这样，通过处理“数据”经验，从中学得一种模型，基于这个模型对新的数据进行判断。

为什么使用机器学习

对于复杂问题，如语言识别，手写体识别，无人驾驶，我们很难想象出某些规则来进行硬编码，而使用机器学习，只需提供它所需的数据，就能自我学习，这样就简化了代码，执行效果也更好。

机器学习的分类

机器学习有很多分类方式，这里只介绍最常见的分类：监督式、半监督式、无监督式。

1）监督式学习

所谓监督就是我们知道数据的“结果”信息，以西瓜为例，一个西瓜色泽青绿、根蒂蜷缩、敲声浊响，并且告诉你它是好瓜。这个“结果”信息好瓜就是标记。所有数据都拥有标记就是监督式学习。当我们对新的数据进行预测是，结果是离散值，例如“好瓜”‘坏瓜’这称为分类。而预测结果是连续值则为回归。监督式学习是我们主要学习的。

2）无监督学习

给我们的数据没有‘结果’信息，不告诉我们这些瓜是好瓜还是坏瓜，这类学习任务称为无监督学习。

3）半监督学习

数据标记通常是很费力的，对于这些数据通常有很大部分没有标记，只有小部分有，这称为半监督学习。它通常是监督式算法和非监督式算法的结合。

为什么能进行机器学习？

首先，明确机器学习的目标。我们的目的是通过学得的模型对新的未知的数据进行预测。而我们的模型是在已知的数据集上学得的。我们怎么保证在已知数据集习得的模型在未知数据上仍然表现好呢？这里利用的是统计学原理，当我们的已知数据集足够大时，它的内在规律就很大程度上接近未知数据上的内在规律。当我们在已知数据集中学得的模型尽可能拟合数据集时，那它通常在未知数据集上表现好。想想看，如果一个模型在已知数据集上都有糟糕的表现，怎么还能期待它在未知数据上的表现。

小结

本节介绍了一些机器学习的概念，之后会进一步补充。刚开始学习时都迫不及待地的想去学习模型，来看看它的表现，下节我们就结束最简单的模型：线性模型。