题目一:
对应GradientBoosting tree算法, 以下说法正确的是:
1. 当增加最小样本分裂个数,我们可以抵制过拟合
2. 当增加最小样本分裂个数,会导致过拟合
3. 当我们减少训练单个学习器的样本个数,我们可以降低variance
4. 当我们减少训练单个学习器的样本个数,我们可以降低bias
A
2 和 4
B
2 和 3
C
1 和 3
D
1 和 4
解析:答案: C
最小样本分裂个数是用来控制“过拟合”参数。太高的值会导致“欠拟合”,这个参数应该用交叉验证来调节。
偏差:这里的偏指的是 偏离 , 那么它偏离了什么到导致了误差? 潜意识上, 当谈到这个词时, 我们可能会认为它是偏离了某个潜在的 “标准”, 而这里这个 “标准” 也就是真实情况 (ground truth). 在分类任务中, 这个 “标准” 就是真实标签 (label).
方差:一个随机变量的方差描述的是它的离散程度, 也就是该随机变量在其期望值附近的 波动程度 .
题目二:
以下哪个图是KNN算法的训练边界
A
B
B
A
C
D
D
C
E
都不是
解析:答案: B
KNN算法肯定不是线性的边界, 所以直的边界就不用考虑了。另外这个算法是看周围最近的k个样本的分类用以确定分类,所以边界一定是坑坑洼洼的。
题目三:
变量选择是用来选择最好的判别器子集, 如果要考虑模型效率,我们应该做哪些变量选择的考虑? 1. 多个变量其实有相同的用处 2. 变量对于模型的解释有多大作用 3. 特征携带的信息 4. 交叉验证
A
1 和 4
B
1, 2 和 3
C
1,3 和 4
D
以上所有
解析:答案: C
注意, 这题的题眼是考虑模型效率,所以不要考虑选项2.
题目四:
对于线性回归模型,包括附加变量在内,以下的可能正确的是 : 1. R-Squared 和 Adjusted R-squared都是递增的 2. R-Squared 是常量的,Adjusted R-squared是递增的 3. R-Squared 是递减的, Adjusted R-squared 也是递减的 4. R-Squared 是递减的, Adjusted R-squared是递增的
A
1 和 2
B
1 和 3
C
2 和 4
D
以上都不是
解析:答案: D
R-squared不能决定系数估计和预测偏差,这就是为什么我们要估计残差图。但是,R-squared有R-squared 和 predicted R-squared 所没有的问题。 每次你为模型加入预测器,R-squared递增或不变.