知乎专栏 —机器学习笔试题精选试题总结(三)

参考网址:http://redstonewill.com/1487/

1. KNN:距离度量方式。得到的边界可能不是线性的。

2. 在一个测试集上可以得到准确率是100%的模型在另一个测试集上不一定是100%(例如现实数据存在噪声)。

3. 交叉验证:如Bootstrap、留一法、k折交叉检验

Bootstrap:从含有n个样本的样本集中有放回地随机选取一个(即下一次选取的样本可能和上一次的一样),最后经过n次之后又得到一个新的样本集。它只需要训练一个模型。

留一法:从含有n个样本的样本集选择n-1个作为训练集,1个作为验证集(每次是不一样的)。它需要训练n个模型。

k折交叉检验:把含有n个样本的样本集分成k份,选择k-1个作为训练集,k个作为验证集(每次是不一样的)。它需要训练k个模型(k\leq n)。

4. 考虑模型效率,在选择变量的时候要考虑:多重共线性;有效信息;交叉验证(增加模型的泛化性能)。

5. 处理异常值很重要;

    数据分布是按照正态分布的话,对于模型的提升是有很大帮助的。在数据预处理的时候,经常将数据归一化为(0,1)的高斯分布,不过这并不是必须的;

    尽量避免多重共线性。

6. 当自变量与因变量之间存在高度的非线性和复杂性时,采用树模型通常会比回归模型更好。

猜你喜欢

转载自blog.csdn.net/qq_33335553/article/details/81676589