1.入门级文章【机器学习该如何入门】-Artificial Intelligence

人工智能->机器学习->深度学习

机器学习:
         大神解释:计算机从数据中学习出规律和模式,以应用在新数据上做预测的任务。

                我的解释:

  传统的机器学习主要做的事情就是利用统计学的基本观点利用要学习的问题的历史样本数据的分布对总体样本分布进行估计[考研考过数一的同学概率与统计中不就有最大似然估计吗?使用什么样的参数使得f(x1,x2,x3,...)概率最大,还有矩估计,说白了就是以样本矩估计总体矩]【所以机器学习很大程度依赖统计数学】分析数据大致特性建立数学分布模型,并利用最优化的知识对模型的参数进行调优学习,使得最终的学习模型能够对已知样本进行很好的模拟与估计。最终利用学习好的模型未知标签的样本进行预测和估计的过程。

  但是越说越觉得机器学习有距离感,云里雾里高深莫测,我们不是专家,但说起算有一些从业经验,做过一些项目在实际数据上应用机器学习。这一篇就我们的经验和各位同仁的分享,总结一些对于初学者入门有帮助的方法和对进阶有用的资料

机器学习的基本问题

  对于机器学习中的基本问题,我们将从以下几个角度进行讲解:机器学习的特点;机器学习的对象;机器学习的分类;机器学习的要素;模型的评估与选择。


机器学习主要特点如下:

1.机器学习以数据为研究对象,是数据驱动的科学

2.机器学习的目的是对数据进行预测与分析

3.机器学习以模型方法为中心,利用统计学习的方法构建模型并且利用模型对未知数据进行预测和分析

4【important-数学基础】]统计学习是概率论统计学信息论计算理论最优化理论以及计算机科学等多领域的交叉学科,并且逐渐形成自己独自的理论体系和方法论。#红色代表博主还不是很懂,以后博主再回来看的时候就知道到底有没有去学习


corpus    英[ˈkɔːpəs] #之前不知道这个单词什么意思
美[ˈkɔːrpəs]
n.    语料库; (书面或口语的)文集,文献,汇编;

这里传送门送你们去看看什么是语料库!字面意思还是好理解,不妨也去深入了解一下  什么是语料库

简单摘取一些 What's corpus:

定义
  在语言学中,语料库(Corpus)指大量文本的集合,库中的文本(称为语料)通常经过整理,
具有既定的格式与标记特指计算机存储的数字化语料库
  语料库是语料库语言学研究的基础资源,也是经验主义语言研究方法的主要资源。应用于词典编纂,语言教学,传统语言研究,自然语言处理中基于统计或实例的研究等方面。

机器学习的对象

机器学习研究的对象是多维向量空间的数据。它从各种不同类型的数据(数字,文本,图像,音频,视频)出发,提取数据的特征,抽象出数据的模型,发现数据中的知识,又回到数据的分析与预测中去。#说的很直白了!!
    

机器学习的分类

  对于机器学习的分类,绝大多数人只简单的分为有监督学习(supervised learning)和无监督学习(unsupervised learning)这两类。严格意义上来讲应该分为四大类:有监督学习、无监督学习、半监督学习(semi-supervised learning)、强化学习(reinforcement learning )。下面对这四种学习做一下简要的介绍:

有监督学习、无监督学习、半监督学习、强化学习
①有监督学习是指进行训练的数据包含两部分信息特征向量 + 类别标签。也就是说,他们在训练的时候每一个数据向量所属的类别是事先知道的。在设计学习算法的时候,学习调整参数的过程会根据类标进行调整,类似于学习的过程中被监督了一样,而不是漫无目标地去学习,故此得名。

②相对于有监督而言,无监督方法的训练数据没有类标,只有特征向量。甚至很多时候我们都不知道总共的类别有多少个。因此,无监督学习就不叫做分类,而往往叫做聚类。就是采用一定的算法,把特征性质相近的样本聚在一起成为一类。

半监督学习是一种结合有监督学习和无监督学习的一种学习方式。它是近年来研究的热点,原因是在真正的模型建立的过程中,往往有类标的数据很少,而绝大多数的数据样本是没有确定类标的。这时候,我们无法直接应用有监督的学习方法进行模型的训练,因为有监督学习算法在有类标数据很少的情况下学习的效果往往很差。但是,我们也不能直接利用无监督学习的方式进行学习,因为这样,我们就没有充分的利用那些已给出的类标的有用信息。#用一定的办法把“食之无味,去只可惜”的数据利用好

④所谓强化学习就是智能系统从环境到行为映射的学习,以使奖励信号(强化信号)函数值最大强化学习不同于连接主义学习中的监督学习,主要表现在教师信号上,强化学习中由环境提供的强化信号是对产生动作的好坏作一种评价(通常为标量信号)而不是告诉强化学习系统RLS(reinforcement learning system)如何去产生正确的动作。由于外部环境提供的信息很少,RLS必须靠自身的经历进行学习。【通过这种方式,RLS在行动-评价的环境中获得知识,改进行动方案以适应环境。】

!利用评价,如何决策,如何学习调整模型参数#这一块我还没有深度了解先理解到这里!

机器学习的要素

简单地说,机器学习的三要素就是:模型、策略和算法。

模型 其实就是机器学习训练的过程中所要学习的条件概率分布或者决策函数。

策略 就是使用一种什么样的评价度量模型训练过程中的学习好坏的方法,同时根据这个方法去实施的调整模型的参数,以期望训练的模型将来对未知的数据具有最好的预测准确度。

算法 算法是指模型的具体计算方法。它基于训练数据集,根据学习策略,从假设空间中选择最优模型,最后考虑用什么样的计算方法去求解这个最优模型。
===========================================================================================================
入门方法与学习路径

  总的来说,机器学习的学习门槛还是蛮高的。当然,也得看你的目标是什么了。如果你的目标只是为了用机器学习的一些算法解决一些简单的分类回归问题,那么其实也不难。但是,如果你的目标是成为机器学习科学家,提出并改进一些算法的新的应用场景或者是算法的执行性能的话,那么你的学习难度和学习周期必定是很艰辛和漫长的。

  本文对所有的读者的假设是前者,因此我们也制定了与机器学习科学家不一致的学习道路。大致的学习过程如下图所示: 

数学基础                 ->

经典算法学习          ->    → 实现简单算法代码 → 数据科学竞赛 (kaggle)    

编程技术                 ->

以上个人个人
微积分

  微分的计算及其几何、物理含义,是机器学习中大多数算法的求解过程的核心。比如算法中运用到梯度下降法、牛顿法等。如果对其几何意义有充分的理解,就能理解“梯度下降是用平面来逼近局部,牛顿法是用曲面逼近局部”,能够更好地理解运用这样的方法。

  【凸优化】和【条件最优化的相关知识】在算法中的应用随处可见,如果能有系统的学习将使得你对算法的认识达到一个新高度

线性代数

  大多数机器学习的算法要应用起来,依赖于高效的计算,这种场景下,程序员童鞋们习惯的多层for循环通常就行不通了,而大多数的循环操作可转化成矩阵之间的乘法运算,这就和线性代数有莫大的关系了。向量的内积运算更是随处可见。矩阵乘法与分解在机器学习的主成分分析(PCA)和奇异值分解(SVD) 等部分呈现刷屏状地出现。#不了解的名词和概念先别着急是什么再后续文章中博主会跟进!


概率论及其数理统计
    从广义来说,机器学习在做的很多事情,和统计层面数据分析和发掘隐藏的模式,是非常类似的。
极大似然思想、贝叶斯模型 是理论基础,朴素贝叶斯( NaiveBayes )、语言模型( Ngram )、隐马尔科夫( HMM ) 、隐变量混合概率模型是他们的高级形态。常见分布如高斯分布是混合高斯模型 ( GMM ) 等的基础。

以上大部分材料转自微信公众号 :【机器学习算法工程师】那里面排版更好,我只是提炼我认为的重点结合自身实际方便复习。希望大家还是去看看原文

猜你喜欢

转载自blog.csdn.net/weixin_43332715/article/details/112380317