机器学习之路（三）

有的读者留言反映，让写点体会之类。

下面，我总结一下机器学习算法，供读者学习参考。

（1）机器学习算法的根本目的就是使用已有样本数据找出规律，然后将这个经验应用到未知样本或者预测未知上。

（2）机器学习算法就是验证那句谚语：不怕慢就怕站！其实，机器不慢哦，机器学习算法和模型假设合理，初始值不怕远，多跑几趟，就很快到终点了，这就是迭代。三个臭皮匠顶上一个诸葛亮，不怕弱，以多胜少原则，集成原则，也体现淋漓尽致。

（3）机器学习算法立足于能简单解决的，就不要复杂；能降维的，就不要高维；线性模型很好的，就不要非线性模型；能用矩阵运算指令的；就不要用简单循环实现。

（4）机器学习算法迭代能分治的、递归的，尽量分治递归。

为了达到以上这些目的，如何评估算法优劣呢。

那就是利用损失函数最小化、偏差和方差来约束或者最大化抽取的某些“核心”要素。

实际样本，可分为跟时间序列有关或者无关。

（1）跟时间序列有关，我们利用HMM模型、条件随机场、Boltzmann模型等，为了解决更符合实际问题，就需要假设很多变量和概率（这些必须有统计经验支撑），有了这些支撑之后，我们就能很好地利用模型寻找规律。

（2）跟时间序列无关，我们可以分为无监督学习、监督学习和半监督学习。

无监督学习就是没有标记分类，那么，我们就利用相似性来聚类，相似性有哪些指标呢？有距离离的近、扎成堆等核心思想。

监督学习就是利用已标记的分类，那么，这时，我们就要寻找分类的标准是什么？当然，找扎堆在一块的标准，因为那个特征或者若干个特征扎堆，我们可以先从容易分的特性开始，如果分错了，是不是可以再加权呢。在未知样本预测时，实际上最简单方法就是找最相似样本的类别，如何做到？如何拟合比较合理？无外乎就是离得越近，加权值越大，越远就越小。

半监督学习就是一部分标记，一部分未标记，那么，想办法利用好未标记样本，这样就能更好地训练模型，当然，样本足够多时，可以将未标记的作为测试集来使用即可。

就写到此，有时间，再和大家深入交流。

机器学习之路（三）

猜你喜欢