算法刷题（2）

题目一：

对应GradientBoosting tree算法，以下说法正确的是:
1. 当增加最小样本分裂个数，我们可以抵制过拟合
2. 当增加最小样本分裂个数，会导致过拟合
3. 当我们减少训练单个学习器的样本个数，我们可以降低variance
4. 当我们减少训练单个学习器的样本个数，我们可以降低bias
A
2 和 4
B
2 和 3
C
1 和 3
D
1 和 4

解析：答案: C
最小样本分裂个数是用来控制“过拟合”参数。太高的值会导致“欠拟合”，这个参数应该用交叉验证来调节。

偏差：这里的偏指的是偏离 , 那么它偏离了什么到导致了误差? 潜意识上, 当谈到这个词时, 我们可能会认为它是偏离了某个潜在的 “标准”, 而这里这个 “标准” 也就是真实情况 (ground truth). 在分类任务中, 这个 “标准” 就是真实标签 (label).

方差：一个随机变量的方差描述的是它的离散程度, 也就是该随机变量在其期望值附近的波动程度 .

题目二：

以下哪个图是KNN算法的训练边界

都不是

解析：答案: B

KNN算法肯定不是线性的边界，所以直的边界就不用考虑了。另外这个算法是看周围最近的k个样本的分类用以确定分类，所以边界一定是坑坑洼洼的。

题目三：

变量选择是用来选择最好的判别器子集， 如果要考虑模型效率，我们应该做哪些变量选择的考虑？
1. 多个变量其实有相同的用处
2. 变量对于模型的解释有多大作用
3. 特征携带的信息
4. 交叉验证

1 和 4

1, 2 和 3

1,3 和 4

以上所有

解析：答案: C

注意，这题的题眼是考虑模型效率，所以不要考虑选项2.

题目四：

对于线性回归模型，包括附加变量在内，以下的可能正确的是 :
1. R-Squared 和 Adjusted R-squared都是递增的
2. R-Squared 是常量的，Adjusted R-squared是递增的
3. R-Squared 是递减的， Adjusted R-squared 也是递减的
4. R-Squared 是递减的， Adjusted R-squared是递增的

1 和 2

1 和 3

2 和 4

以上都不是

解析：答案: D

R-squared不能决定系数估计和预测偏差，这就是为什么我们要估计残差图。但是，R-squared有R-squared 和 predicted R-squared 所没有的问题。每次你为模型加入预测器，R-squared递增或不变.

张楚岚

发布了67 篇原创文章 · 获赞 16 · 访问量 4万+

私信关注

猜你喜欢