机器学习算法系列(一)

    这一块学习记录已经有一段时间啦,各种博客、知乎、书籍还有视频等各种相关资料也了解的差不多了,其实找来找去除了书籍、视频可能还相对系统一些,而对于相关网站稍微有些支离破碎;

    即相当于自我学习的总结提升、也算是相投之人入门的引路了,所以准备好好的整理一下相关系列文章;

    算来说去还是回归到了算法,其实除了硬件等硬性条件之外,最核心的依然还是算法;

    之前自己接触相关深度学习及相关框架、工具等等知识,博士师兄及时制止了我并给我了一本周志华的《机器学习》;

    所以此系列文章的初期基本框架、方向会以此书为引导,加上汇聚各方博客、知乎、视频等精华,整理成自己的思路及理解,尽量做到言简意赅与大家分享交流

    (说到此处颇是惭愧,之前的[痛定思痛,开启算法之路系列](https://blog.csdn.net/Enjoy_endless/article/details/78925237))文章只更新到了15次,第二本书后半部分还没有及时学习更新,后面有时间还需继续学习更新!

对于机器学习的基本概念、原理及应用等,在此就不在赘述,推荐一篇文章可谓从广度上已经非常详细啦,里面还有许多参考资料的推荐等等:三张图读懂机器学习:基本概念、五大流派与九种常见算法

还有一个系列博客,是完全按照周志华《机器学习》书籍来一一翻版复刻的,当然其整理及个人添加部分案例也是十分有效,本文章也多有借鉴之处,表示非常感谢,感兴趣的可以阅读:周志华《Machine Learning》 学习笔记系列

    对于本系列文章,长期的规划还不是十分明确,也算是边学习、边扩展、边分享吧,短期算法整理分享基本包括但不限于
    (后期随着学习继续扩展,以下无具体顺序性):

1、回归(Regression)
2、决策树(Decision Tree)
3、支持向量机(Support Vector Machine)
4、贝叶斯分类器(Naive Bayes Classification)
5、隐马尔可夫模型(Hidden Markov model)
6、随机森林(Random forest)
7、聚类
8、神经网络(CNN\LSTM\RNN...)
9、特征选择与稀疏学习
10、半监督学习
11、强化学习
12、遗传算法

后续再相继补充添加...

先来看一下相关基本概念:

1.特性(Features) - 其实就是数据
2.分类器(Classifier) - 其实就是算法
3.标签(Labels) - 其实就是种类
4.模型(Models) - 其实就是最终输出的分类公式

成本函数:

回归问题:对落在分割点确定区域内所有的样本取误差平方和(Sum Squared Error)。
分类问题:一般采用基尼成本函数(Gini Cost Function),它能够表明被分割之后每个节点的纯净度(Node Purity)如何。其中,节点纯净度是一种表明每个节点分类后训练数据混杂程度的指标。

评估方法:

留出法(划分2个互斥集:训练集、测试集);交叉验证法(划分k个互斥子集,每次从k中依次取一个作为测试集计算结果;重复训练k次每次训练集不重复,计算平均结果);自组法(有放回的随机取样m次作为测试集,总共m个样本)

若我们预测的是离散值,如‘好瓜’‘坏瓜’,此类学习任务称为分类;若预测的是连续值,如瓜的成熟度0.95、0.37,此类学习任务称为回归;

根据训练数据是否拥有标记信息,学习任务可大致分为:监督学习(分类、回归等)和无监督学习(聚类等)

归纳(从特殊到一般的泛化)与演绎(从一般到特殊的特化)

狭义的归纳学习指从训练数据中学的概念,称为概念学习:最基本的布尔概念学习;

机器学习算法在学习过程中对某种类型假设的偏好,称为归纳偏好。任何一个有效的机器学习算法必有其归纳偏好,否则它将被假设空间中看似在训练集上等效的假设所迷惑;

猜你喜欢

转载自blog.csdn.net/enjoy_endless/article/details/80580827