1.总体框架
2.数据采集
由于机器学习是从数据中进行学习的方法,所以首先要针对想要解决的问题进行数据的采集。数据的采集主要有两种途径,一种是自己采集,另一种就是去网上找公开的数据集。数据采集完成后,就得到了原始的数据。
3.特征提取
由于原始数据繁多,我们需要从原始数据中,提取出跟想要解决问题相关的数据作为特征(一些深度学习的方法可以自己从数据中提取特征,但是传统机器学习方法往往需要自己去提取特征,称为特征工程)。比如上图中的敲击声、颜色光泽、纹路清晰度等可以作为判断西瓜是否成熟的特征,但是像西瓜的形状等特征或许与其是否成熟无关,则不能作为特征(如果提取到了与所解决问题无关的特征会怎么样?)。
4.模型、学习准则和优化算法的确定
模型、学习准则与优化算法是机器学习的三大要素:
模型的作用是根据输入的特征给出输出的结果(针对具体的问题),也可以将模型理解为函数。不同的机器学习模型(比如LR、SVM、NB等),实质上是不同的待选择函数簇。当模型的类型确定后,函数的大体框架就确定了,剩下的就是对函数中的参数的学习。所以,机器学习的本质就是在一堆由不同的参数所决定的函数里面,选出最好的那个(一个优化问题)。
学习准则的作用是针对想要解决的问题,评价某一个模型的好坏程度。在监督学习中,一般是看模型的输出与数据集中的真值的差异,差异越小,一般就代表模型越好。
优化算法的作用是对选出最好的模型这个优化问题进行求解。
这三大要素确定好之后,将数据集带入其中,即可训练出一个在当前的数据集情况下的最优模型。
5.模型的使用
训练好后得到了一个最优的函数,然后将待预测的特征自变量输入模型即可得到预测的结果。