算法刷题(2)

题目一:

对应GradientBoosting tree算法, 以下说法正确的是:
1. 当增加最小样本分裂个数,我们可以抵制过拟合
2. 当增加最小样本分裂个数,会导致过拟合
3. 当我们减少训练单个学习器的样本个数,我们可以降低variance
4. 当我们减少训练单个学习器的样本个数,我们可以降低bias
A
2 和 4
B
2 和 3
C
1 和 3
D
1 和 4

解析:答案: C
最小样本分裂个数是用来控制“过拟合”参数。太高的值会导致“欠拟合”,这个参数应该用交叉验证来调节。

偏差:这里的偏指的是 偏离 , 那么它偏离了什么到导致了误差? 潜意识上, 当谈到这个词时, 我们可能会认为它是偏离了某个潜在的 “标准”, 而这里这个 “标准” 也就是真实情况 (ground truth). 在分类任务中, 这个 “标准” 就是真实标签 (label).

方差:一个随机变量的方差描述的是它的离散程度, 也就是该随机变量在其期望值附近的 波动程度 . 

题目二:

以下哪个图是KNN算法的训练边界

A

B

B

A

C

D

D

C

E

都不是

解析:答案: B

KNN算法肯定不是线性的边界, 所以直的边界就不用考虑了。另外这个算法是看周围最近的k个样本的分类用以确定分类,所以边界一定是坑坑洼洼的。

题目三:

变量选择是用来选择最好的判别器子集, 如果要考虑模型效率,我们应该做哪些变量选择的考虑?
1. 多个变量其实有相同的用处
2. 变量对于模型的解释有多大作用
3. 特征携带的信息
4. 交叉验证

A

1 和 4

B

1, 2 和 3

C

1,3 和 4

D

以上所有

解析:答案: C

注意, 这题的题眼是考虑模型效率,所以不要考虑选项2.

题目四:

对于线性回归模型,包括附加变量在内,以下的可能正确的是 :
1. R-Squared 和 Adjusted R-squared都是递增的
2. R-Squared 是常量的,Adjusted R-squared是递增的
3. R-Squared 是递减的, Adjusted R-squared 也是递减的
4. R-Squared 是递减的, Adjusted R-squared是递增的

A

1 和 2

B

1 和 3

C

2 和 4

D

以上都不是

解析:答案: D

R-squared不能决定系数估计和预测偏差,这就是为什么我们要估计残差图。但是,R-squared有R-squared 和 predicted R-squared 所没有的问题。 每次你为模型加入预测器,R-squared递增或不变.

发布了67 篇原创文章 · 获赞 16 · 访问量 4万+

猜你喜欢

转载自blog.csdn.net/weixin_42446330/article/details/86773334
今日推荐