1、什么是机器学习?
机器学习就是研究如何使计算机能够模拟人的学习方式,从大量数据中不断提升处理某个具体问题的能力。
2、机器学习的三要素是什么?
数据、算法、模型。
机器学习通过大量数据,使用某种算法,不断训练优化自己的模型。
3、什么是目标函数?
通过样本训练,得到一个具体模型,用来描述该模型的函数。
4、什么是损失函数?
用来衡量假设函数对样本的预测值与实际值差异差异的函数。
5、机器学习的一般步骤是什么?
数据采集和标注、数据预处理、特征选择、模型选择、模型训练与测试、模型评估与优化、模型应用
6、什么是过拟合、欠拟合?
过拟合是模型的训练集损失函数很小,验证集损失函数很大。
欠拟合是模型的训练集损失函数很大,验证集损失函数很大。
7、什么是学习曲线?
描述模型的损失函数随样本数量变化的曲线。
8、如何判断过拟合、欠拟合?
模型欠拟合时,训练集和验证集的学习曲线接近,但都在一个较低的水平。
模型过拟合时,训练集的学习曲线保持在较高水平,验证集的学习曲线保持在较低水平。
模型拟合好时,训练集和验证集的学习曲线接近,且都保持在教高水平。
9、如何解决过拟合问题?
增加训练集样本数量;减少选择的特征数量。
10、如果解决欠拟合问题?
增加有价值的特征数量;增加多项式特征。
11、如何验证模型准确率?
准确率:Precision=TP/(TP+FP),即在所有被预测为正的测试数据中,预测正确的比率。
召回率:Recall=TP/(TP+FN) ,即在所有实际为正的测试数据中,预测正确的比率。
F1Score: F1Score = 2*PR/(P+R)
12、什么是K近邻算法?
通过未标记样本距离最近的k个邻居决定样本的类别。k近邻算法是一种有监督的学习算法,可以解决分类问题,也可以解决回归问题。
优点:准确性高,对异常值和噪声有较高的容忍度。
缺点:计算量较大,对内存有较大需求。
13、K近邻算法的原理?
1)遍历训练集中所有样本,计算每个样本于测试集中样本的距离,并把距离保存在距离数组;
2)对距离数组进行排序,取距离最近的k个点;
3)统计最近k个点每个类别的个数,待测样本的类别,就是k个点中个数最多的那个类别。
(待续)