图解机器学习-浅谈机器学习

几种主要的学习方法：

监督学习：在学习的过程中每一次输入都能够有一个输出结果与之相对应的学习过程，例如每次会告诉你x值对应的y值，会告诉你每一次输入属于范围1还是范围0等等。使机器具有泛化能力，能够根据未知的输入推测出理想的预测值。

无监督学习：计算机每次输入不知道对应的结果，学习目标不需要明确，主要用于卫星故障诊断，视频分析，社交网站解析和声音信号解析等方面。可以进行聚类和异常检测。

强化学习：设定评价函数，对已学的知识获取的答案不知对错的前提下进行评价。为了不断追求高评价带来的体验，结果会变得越来越好。在强化学习中会用到回归，分类，聚类和降维等各种各样的机器学习算法。

主要研究的问题：

回归：实函数在样本点附近进行有监督的函数近似。在监督学习中输入的输出样本{x,y}是已知的，输入样本y经常会有噪声干扰回归的性能，根据已有的输入集样本拟合出一条与之近似的曲线，然后用这条曲线去预测未知的输入样本以求能得到符合训练集样本的输出值，这种问题称为回归问题。

分类：函数也是监督学习，但是作为训练集的函数输入的输入得到的不是函数的输出值，而是{0，1}等之类的分类值，根据训练集得到训练集中输入值和输出类别之间的关系，然后对于未知的输入样本进行输出的类别分析，以达到跟前面训练集相拟合的分类结果。

异常检测：寻找输入样本中所包含的异常数据。异常检测中对于什么数据是正确的什么数据是错误的并没有一个明确的标准，无监督学习，常规的是根据密度估计的方法，靠近密度中心的数据作为正常数据，把偏离密度中心的数据作为异常数据。

聚类：模式识别的无监督学习的一种。只给出训练集的输入样本，然后判断各个样本分别属于哪一个类，属于相同簇的样本具有相同的性质，属于不同簇的样本之间具有不同的性质，在聚类问题中如何评判样本之间的相似度是一个很重要的问题。

降维：从高维度数据中题去关键信息，将其转换为易于计算的低维度问题进而求解的方法。降维问题分为监督学习和无监督学习两种。作为训练集的输入样本是已知的情况下，属于监督学习，可以把样本转换为较低维度的样本，从而获得较高的泛化能力。只有输入样本x是已知的情况下属于无监督学习，在转换为较低维度的样本之后，应该保持原始输入样本的数据分布性质，以及数据间的近邻关系不发生变化。