1、BoostingTree

什么是提升树（boostingTree）？
答：若干颗决策树构成了一个弱分类器模型，并给予每一次分错的样本更大的权重。

2、GBDT

什么是 GBDT，与提升树有什么关系？ GBDT如何做回归问题？如何做分类问题？在回归问题中的loss函数如何定义？在分类问题中loss函数如何定义？为什么这么定义loss函数？回归问题中，
用什么loss函数去定义的，对于这个loss函数怎么去优化？还有改进方法吗？这个优化方式是用什么框架去做的？调用了什么函数？有哪一些重要参数去调整？

3、正则化

L1 ， L2 正则化为什么可以减弱过拟合？L1、L2有什么区别，在sklearn和xgboost中是怎么调用的？

4、KNN 和逻辑回归有什么本质的区别？

答：KNN 是线性的，Logistic Regression 是非线性的

5、随机森林

为什么随机森林具有特征选择的功能？随机森林有哪些重要的参数，分别代表什么含义，怎么去调参？

答：随机森林的特征选择目的是使模型具有更强的泛化性和鲁棒性。
随机森林中的重要参数主要有：
max_depth，控制树的深度，一般深度不超过 int(log2(n))+1，其中n为 n_features（特征数量），在进行特征选择后，深度会小于这个值。当特征规模很大时，给定 max_depth，可以防止模型过拟合。
n_features：进行特征选择，根据数据规模进行参数调整。当 dataset 中有大量的无关 features，可以视这些 features 为噪声，那么可以对每一批数据取适量特征，可以提高模型的泛化性。

6、过拟合

怎么判断一个项目过拟合？如果过拟合怎么处理？
答：当模型在 training set 中对拟合结果的正确率趋近于100%，而在不同的 testing set 中反应的正确率很低，则确定为过拟合。

7、优化算法

详细的说一个你特别了解的优化算法。另外还有哪些优化算法，1阶优化算法有哪些？2阶优化算法有哪些？他们之间有哪些联系关系？

答：

8、样本不均衡

如何解决样本不均衡的问题，在所有的算法里面，哪一种算法对于样本不均衡的问题可以忽略掉？

9、调用python API，调换一个三维或四维数据的维度顺序。

.transform

【机器学习8问】

1、BoostingTree

2、GBDT

3、正则化

4、KNN 和逻辑回归有什么本质的区别？

5、随机森林

6、过拟合

7、优化算法

8、样本不均衡

9、调用python API，调换一个三维或四维数据的维度顺序。

猜你喜欢

【机器学习8问】

1、BoostingTree

2、GBDT

3、正则化

4、KNN 和 逻辑回归有什么本质的区别？

5、随机森林

6、过拟合

7、优化算法

8、样本不均衡

9、调用python API，调换一个三维或四维数据的维度顺序。

猜你喜欢

4、KNN 和逻辑回归有什么本质的区别？