机器学习之路(三)

    有的读者留言反映,让写点体会之类。

    下面,我总结一下机器学习算法,供读者学习参考。

    (1)机器学习算法的根本目的就是使用已有样本数据找出规律,然后将这个经验应用到未知样本或者预测未知上。

    (2)机器学习算法就是验证那句谚语:不怕慢就怕站!其实,机器不慢哦,机器学习算法和模型假设合理,初始值不怕远,多跑几趟,就很快到终点了,这就是迭代。三个臭皮匠顶上一个诸葛亮,不怕弱,以多胜少原则,集成原则,也体现淋漓尽致。

    (3)机器学习算法立足于能简单解决的,就不要复杂;能降维的,就不要高维;线性模型很好的,就不要非线性模型;能用矩阵运算指令的;就不要用简单循环实现。

    (4)机器学习算法迭代能分治的、递归的,尽量分治递归。

    为了达到以上这些目的,如何评估算法优劣呢。

    那就是利用损失函数最小化、偏差和方差来约束或者最大化抽取的某些“核心”要素。

     实际样本,可分为跟时间序列有关或者无关。

    (1)跟时间序列有关,我们利用HMM模型、条件随机场、Boltzmann模型等,为了解决更符合实际问题,就需要假设很多变量和概率(这些必须有统计经验支撑),有了这些支撑之后,我们就能很好地利用模型寻找规律。

    (2)跟时间序列无关,我们可以分为无监督学习、监督学习和半监督学习。

        无监督学习就是没有标记分类,那么,我们就利用相似性来聚类,相似性有哪些指标呢?有距离离的近、扎成堆等核心思想。

        监督学习就是利用已标记的分类,那么,这时,我们就要寻找分类的标准是什么?当然,找扎堆在一块的标准,因为那个特征或者若干个特征扎堆,我们可以先从容易分的特性开始,如果分错了,是不是可以再加权呢。在未知样本预测时,实际上最简单方法就是找最相似样本的类别,如何做到?如何拟合比较合理?无外乎就是离得越近,加权值越大,越远就越小。

        半监督学习就是一部分标记,一部分未标记,那么,想办法利用好未标记样本,这样就能更好地训练模型,当然,样本足够多时,可以将未标记的作为测试集来使用即可。

        就写到此,有时间,再和大家深入交流。

猜你喜欢

转载自blog.csdn.net/weixin_42039090/article/details/80711076