机器学习1 从基础讲起

引言

机器学习已经学了两三个月了,看了西瓜书,机器学习实战,也走过不少弯路,现在做做总结,把经验写下了。

什么机器学习

以我们人类做类比,我们看过、吃过很多西瓜后,判断色泽青绿、根蒂蜷缩、敲声浊响的这类瓜就是好瓜。我们通过积累经验,在通过经验进行运用,就会对新情况做出更有效判断。

机器学习就是这样,通过处理“数据”经验,从中学得一种模型,基于这个模型对新的数据进行判断。

为什么使用机器学习

对于复杂问题,如语言识别,手写体识别,无人驾驶,我们很难想象出某些规则来进行硬编码,而使用机器学习,只需提供它所需的数据,就能自我学习,这样就简化了代码,执行效果也更好。

机器学习的分类

机器学习有很多分类方式,这里只介绍最常见的分类:监督式、半监督式、无监督式。

1)监督式学习

所谓监督就是我们知道数据的“结果”信息,以西瓜为例,一个西瓜色泽青绿、根蒂蜷缩、敲声浊响,并且告诉你它是好瓜。这个“结果”信息好瓜就是标记。所有数据都拥有标记就是监督式学习。当我们对新的数据进行预测是,结果是离散值,例如“好瓜”‘坏瓜’这称为分类。而预测结果是连续值则为回归。监督式学习是我们主要学习的。

2)无监督学习

给我们的数据没有‘结果’信息,不告诉我们这些瓜是好瓜还是坏瓜,这类学习任务称为无监督学习。

3)半监督学习

数据标记通常是很费力的,对于这些数据通常有很大部分没有标记,只有小部分有,这称为半监督学习。它通常是监督式算法和非监督式算法的结合。

为什么能进行机器学习?

首先,明确机器学习的目标。我们的目的是通过学得的模型对新的未知的数据进行预测。而我们的模型是在已知的数据集上学得的。我们怎么保证在已知数据集习得的模型在未知数据上仍然表现好呢?这里利用的是统计学原理,当我们的已知数据集足够大时,它的内在规律就很大程度上接近未知数据上的内在规律。当我们在已知数据集中学得的模型尽可能拟合数据集时,那它通常在未知数据集上表现好。想想看,如果一个模型在已知数据集上都有糟糕的表现,怎么还能期待它在未知数据上的表现。

小结

本节介绍了一些机器学习的概念,之后会进一步补充。刚开始学习时都迫不及待地的想去学习模型,来看看它的表现,下节我们就结束最简单的模型:线性模型。

猜你喜欢

转载自blog.csdn.net/weixin_43309755/article/details/85410497