机器学习笔记1---基础入门

目录:

一何谓机器学习

二常用术语

三机器学习的主要任务

四开发机器学习应用程序的步骤

五 numpy基础

===========================================================================

一何谓机器学习

[Mitchell 1997]给出了一个形式化的定义:假设用P来评估计算机程序在某任务类T上的性能,若一个程序通过利用经验E在T中任务上获得了性能改善,则我们就说关于T和P,该程序对E进行了学习。

[周志华 西瓜书]:机器学习,它致力于研究如果通过计算的手段,利用经验来改善系统自身的性能。计算机系统中,“经验”通常以“数据”形式存在,因此,机器学习所研究的主要内容,是关于计算机从数据中产生“模型”(model)算法,即“学习算法”(learing algorithm)。有了学习算法,我们把经验数据提供给它,他就能基于这些数据产生模型;在面对新的情况时(例如看到一个没剖开的西瓜),模型会给我们提供相应的判断(例如:这是一个好瓜)。如果说计算机科学是研究关于“算法”的学问,那么类似的,可以说机器学习是研究关于“学习算法”的学问。

由此,我们知道,机器学习是用来研究计算机自动“学习算法的”的学问

二常用术语

数据集(data set)

样本(sample)

特征(feature)

训练集(training set)

测试集(testing set)

标签(label)

三机器学习的主要任务

四开发机器学习应用程序的步骤

1.  收集数据:可以使用任何你可以采用的方法收集你所需要的数据,、

2. 准备输入数据:在得到数据之后,还必须保证你的数据格式符合要求,所以必要的时候,要对数据进行一定的处理

3. 分析输入数据:检查数据是否有空值或者异常值,也可以使用数据图形展示的方法观察数据

4. 训练算法:将前几步得到的格式化数据如数到算法,从中抽取只是或信息。机器学习算法从这一步正式开始。(注:如果使用无监督学习算法,由于不存在目标变量值,故而也不需要训练算法,所有与算法相关的内容都集中在第5步)

5. 测试算法:使用第4步机器学习得到的知识信息。为了评估算法性能,必须测试算法工作的效果。对于监督学习,必须已知用于评估算法的目标变量值;对于无监督学习,也必须使用其他方法评测检验算法的成功率。如果算法表现的不好,则返回前面的步骤重新调整。

6. 使用算法:将机器学习算法封装成应用程序,执行实际任务。

五 numpy基础

NumPy系统是Python的一种开源的数值计算扩展。这种工具可用来存储和处理大型矩阵,比Python自身的嵌套列表(nested list structure)结构要高效的多(该结构也可以用来表示矩阵(matrix))。(百度百科)

1        在Python中导入numpy函数库:

From numpy import *

2        生成一个随机数组:

random.rand4,4

1        调用mat()命令,可以将数组转换为矩阵形式:

Randmat = matrandom.rand4,4))

1        使用 .I 求逆矩阵:

Randmat.I

(注:Randmat = mat(random.rand(4,4)))


关于Python的知识,后续单独做个笔记吧~


参考文献:

机器学习

机器学习实战







猜你喜欢

转载自blog.csdn.net/qq_14822691/article/details/80934405