浅谈机器学习

什么是机器学习

利用计算机从历史数据中找出规律,并把这些规律用到对未来不确定场景的决策。

问题分类

根据问题本身的特征来分类,机器学习问题可以分为监督学习、无监督学习、半监督学习和强化学习。

监督学习(Supervised Learning)

特点是训练数据是有标签的,即对于每个输入都有相应的输出,算法的目的是训练出能反应输入与输出直接的映射关系的模型。对于输出值是离散的(有限个数),称之为分类问题;对于输出值是连续的,则称之为回归问题。

无监督学习(Unsupervised Learning)

训练的数据是没有标签的,即没有确定的输出值,就需要根据提取特征,这类问题的算法包括关联规则和聚类算法。

半监督学习(Semi-supervisedLearning)

是介于监督学习和非监督学习之间,即数据一部分有标签,一部分没有标签,算法一半是需要考虑利用少量的标注样本和大量的非标注样本来完成训练、回归或分类。常用算法包括自训练、直推学习、生成式模型。

强化学习(Reinforcement Learning)

是 从环境状态到行为映射的学习,通过反复与环境交互来改进策略,以使系统行为从环境中获得的累积奖赏值最大。强化学习现主要应用于智能控制及分析预测等领域。强化学习可以动态地调整参数,与监督学习的区别在于产生的动作和获得的奖赏没有明确的函数形式表示,只能采用试探的方式进行,如果某一动作获得的奖赏为正,则以后产生这一动作的趋势会增加,反之则会监弱。

算法分类

现在机器学习的算法较多,按照功能分类大体可分为回归、分类、聚类、维度约减四个类别。其中回归和分类问题虽然在定义上有区别(连续和离散),但本质上是一样的,算法是可以通用的,因此把二者涉及的算法归在一起。具体划分情况为:

(1)回归和分类

线性回归:拟合自变量和因变量线性关系的统计分析方法,最长用最小二乘法来求解参数。

多项式回归:自变量次数大于1,但具体的次数选择往往要依靠经验,次数太高容易过拟合。

朴素贝叶斯:由贝叶斯公式得到的分类器,通过计算后验概率来分类。

支持向量机:在较长的一段时间被誉为二值分类问题最佳的模型通过核函数映射,将低纬线性不可分的数据集映射到高维,使其线性可分,并使分类界面间隔最大。算法求解过程用到了二次规划、拉格朗日乘子法、KKT条件、对偶问题、SMO算法等。SVM算法善于处理小样本问题。

逻辑斯蒂回归:在线性回归的基础上应用逻辑函数,函数值位于0到1之间,二值分类以0.5为界限。

 K近邻(K-Nearest Neighbors,KNN):基于实例的算法,通过距离公式来寻找相似样本来做回归预测,依赖于样本数据的质和量,算法很成熟但计算量较大,因此后来又提出了KD树的方法。

猜你喜欢

转载自blog.csdn.net/lovebaby1689/article/details/106006677