第一章机器学习的基础

机器学习简单的说就是将无序的数据转换成有用的信息，其横跨计算机科学，工程技术和统计学等多个学科，可实际应用于从政治到地质学等多个领域。

移动计算和传感器产生的海量数据意味着未来我们将面临越来越多的数据，如何从海量数据中抽取到有价值的信息将是一个非常重要的课题。

针对鸟类专家系统的机器学习模型，首先要做的是算法训练，即学习如何分类，通常要为算法输入大量已分类数据作为算法的训练集。训练集是用于训练机器学习算法的数据样本集合。目标变量是机器学习算法的预测结果，在分类算法中目标变量的类型通常是标称型的，而在回归算法中通常是连续型的。训练样本集必须确定知道目标变量的值，以便机器学习算法可以发现特征和目标之间的关系。

为了测试机器学习算法的效果，通常使用两套独立的样本集，训练数据和测试数据，当机器学习程序开始运行时，使用训练样本集作为算法的输入，训练完之后输入测试样本。输入测试样本时并不提供测试样本的目标量，由程序决定样本属于哪个类别。比较测试样本预测的目标变量值与实际样本类别之间的差别，这就可以得出算法的实际精确度。

机器学习的另一项任务是回归，主要用于预测数值型数据。数据拟合曲线就是一种回归，通过给定数据点进行最优拟合，分类和回归属于监督学习。与之对应的是无监督学习，此时数据没有类别信息，也不会给定目标值。在无监督学习中，将数据集合分成由类似的对象组成的多个类的过程是聚类。将寻找描述数据统计值的过程称为密度估计。

选择合适的算法，首先要考虑机器学习的目的，如果要预测目标变量的值，可以选择监督学习算法，否则可以选择无监督学习算法，如果不想预测目标变量的值，则可以选择无监督学习算法。

机器学习算法开发应用程序，通常遵循以下的步骤：

1) 收集数据。

2) 准备输入数据，得到数据之后要确保数据格式符合要求。

3) 分析输入数据，此步骤主要是人工分析以前得到的数据。这一步的主要作用是确保数据集中没有垃圾数据。

4) 训练算法

5) 测试算法

6) 使用算法，将机器学习算法转换为应用程序，执行实际任务。

Numpy函数库中存在两种不同的数据类型，矩阵和数组，都可以用于处理行列表示的数字元素，看起来它们很相似，但是在这两个数据类型上执行相同的数学运算可能得到不同的结果。

Mat()函数可以将数组转换为矩阵。

第一章 机器学习的基础

猜你喜欢

第一章机器学习的基础