【机器学习8问】

1、BoostingTree

什么是提升树(boostingTree)?
答:若干颗决策树构成了一个弱分类器模型,并给予每一次分错的样本更大的权重。

2、GBDT

什么是 GBDT,与提升树有什么关系? GBDT如何做回归问题?如何做分类问题?在回归问题中的loss函数如何定义?在分类问题中loss函数如何定义?为什么这么定义loss函数?回归问题中,
用什么loss函数去定义的,对于这个loss函数怎么去优化?还有改进方法吗?这个优化方式是用什么框架去做的?调用了什么函数?有哪一些重要参数去调整?

3、正则化

L1 , L2 正则化为什么可以减弱过拟合?L1、L2有什么区别, 在sklearn和xgboost中是怎么调用的?

4、KNN 和 逻辑回归有什么本质的区别?

答:KNN 是线性的,Logistic Regression 是非线性的

5、随机森林

为什么随机森林具有特征选择的功能?随机森林有哪些重要的参数,分别代表什么含义,怎么去调参?

答:随机森林的特征选择目的是使模型具有更强的泛化性和鲁棒性。
随机森林中的重要参数主要有:
max_depth,控制树的深度,一般深度不超过 int(log2(n))+1,其中n为 n_features(特征数量),在进行特征选择后,深度会小于这个值。当特征规模很大时,给定 max_depth,可以防止模型过拟合。
n_features:进行特征选择,根据数据规模进行参数调整。当 dataset 中有大量的无关 features,可以视这些 features 为噪声,那么可以对每一批数据取适量特征,可以提高模型的泛化性。

6、过拟合

怎么判断一个项目过拟合?如果过拟合怎么处理?
答:当模型在 training set 中对拟合结果的正确率趋近于100%,而在不同的 testing set 中反应的正确率很低,则确定为过拟合。

7、优化算法

详细的说一个你特别了解的优化算法。另外还有哪些优化算法,1阶优化算法有哪些?2阶优化算法有哪些?他们之间有哪些联系关系?

答:

8、样本不均衡

如何解决样本不均衡的问题,在所有的算法里面,哪一种算法对于样本不均衡的问题可以忽略掉?

9、调用python API,调换一个三维或四维数据的维度顺序。

.transform

猜你喜欢

转载自blog.csdn.net/weixin_37392582/article/details/80060112