机器学习算法系列(一)

    这一块学习记录已经有一段时间啦，各种博客、知乎、书籍还有视频等各种相关资料也了解的差不多了，其实找来找去除了书籍、视频可能还相对系统一些，而对于相关网站稍微有些支离破碎；

    即相当于自我学习的总结提升、也算是相投之人入门的引路了，所以准备好好的整理一下相关系列文章；

    算来说去还是回归到了算法，其实除了硬件等硬性条件之外，最核心的依然还是算法；

    之前自己接触相关深度学习及相关框架、工具等等知识，博士师兄及时制止了我并给我了一本周志华的《机器学习》；

    所以此系列文章的初期基本框架、方向会以此书为引导，加上汇聚各方博客、知乎、视频等精华，整理成自己的思路及理解，尽量做到言简意赅与大家分享交流

    (说到此处颇是惭愧，之前的[痛定思痛，开启算法之路系列](https://blog.csdn.net/Enjoy_endless/article/details/78925237))文章只更新到了15次，第二本书后半部分还没有及时学习更新，后面有时间还需继续学习更新！

对于机器学习的基本概念、原理及应用等，在此就不在赘述，推荐一篇文章可谓从广度上已经非常详细啦，里面还有许多参考资料的推荐等等：三张图读懂机器学习：基本概念、五大流派与九种常见算法

还有一个系列博客，是完全按照周志华《机器学习》书籍来一一翻版复刻的，当然其整理及个人添加部分案例也是十分有效，本文章也多有借鉴之处，表示非常感谢，感兴趣的可以阅读：周志华《Machine Learning》学习笔记系列

    对于本系列文章，长期的规划还不是十分明确，也算是边学习、边扩展、边分享吧，短期算法整理分享基本包括但不限于
    (后期随着学习继续扩展，以下无具体顺序性)：

1、回归（Regression）
2、决策树（Decision Tree）
3、支持向量机（Support Vector Machine）
4、贝叶斯分类器（Naive Bayes Classification）
5、隐马尔可夫模型（Hidden Markov model）
6、随机森林（Random forest）
7、聚类
8、神经网络(CNN\LSTM\RNN...)
9、特征选择与稀疏学习
10、半监督学习
11、强化学习
12、遗传算法

后续再相继补充添加...

先来看一下相关基本概念：

1.特性（Features） - 其实就是数据
2.分类器（Classifier） - 其实就是算法
3.标签（Labels） - 其实就是种类
4.模型(Models) - 其实就是最终输出的分类公式

成本函数：

回归问题：对落在分割点确定区域内所有的样本取误差平方和（Sum Squared Error）。
分类问题：一般采用基尼成本函数（Gini Cost Function），它能够表明被分割之后每个节点的纯净度（Node Purity）如何。其中，节点纯净度是一种表明每个节点分类后训练数据混杂程度的指标。

评估方法：

留出法(划分2个互斥集：训练集、测试集)；交叉验证法(划分k个互斥子集，每次从k中依次取一个作为测试集计算结果；重复训练k次每次训练集不重复，计算平均结果)；自组法(有放回的随机取样m次作为测试集，总共m个样本)

若我们预测的是离散值，如‘好瓜’‘坏瓜’，此类学习任务称为分类；若预测的是连续值，如瓜的成熟度0.95、0.37,此类学习任务称为回归；

根据训练数据是否拥有标记信息，学习任务可大致分为：监督学习(分类、回归等)和无监督学习(聚类等)

归纳(从特殊到一般的泛化)与演绎(从一般到特殊的特化)

狭义的归纳学习指从训练数据中学的概念，称为概念学习：最基本的布尔概念学习；

机器学习算法在学习过程中对某种类型假设的偏好，称为归纳偏好。任何一个有效的机器学习算法必有其归纳偏好，否则它将被假设空间中看似在训练集上等效的假设所迷惑；

机器学习算法系列(一)

猜你喜欢